Redis数据库中实现分布式锁的方法
|
分布式锁是一个在很多环境中非常有用的原语,它是不同进程互斥操作共享资源的唯一方法。有很多的开发库和博客描述如何使用Redis实现DLM(Distributed Lock Manager),但是每个开发库使用不同的方式,而且相比更复杂的设计与实现,很多库使用一些简单低可靠的方式来实现。 这篇文章尝试提供更标准的算法来使用Redis实现分布式锁。我们提出一种算法,叫做Relock,它实现了我们认为比vanilla单一实例方式更安全的DLM(分布式锁管理)。我们希望社区分析它并提供反馈,以做为更加复杂或替代设计的一个实现。 实现 在说具体算法之前,下面有一些具体的实现可供参考.
安全和活跃性保证 从有效分布式锁的最小保证粒度来说,我们的模型里面只用了3个属性,具体如下: 1. 属性安全: 互斥行.在任何时候,只有一个客户端可以获得锁. 2. 活跃属性A: 死锁自由. 即使一个客户端已经拥用了已损坏或已被分割资源的锁,但它也有可能请求其他的锁. 3. 活跃属性B:容错. 只要大部分Redis节点可用,客户端就可以获得和释放锁. 为何基于容错的实现还不够 要理解我们所做的改进,就要先分析下当前基于Redis的分布式锁的做法。 使用Redis锁住资源的最简单的方法是创建一对key-value值。利用Redis的超时机制,key被创建为有一定的生存期,因此它最终会被释放。而当客户端想要释放时,直接删除key就行了。 一般来说这工作得很好,但有个问题: 这是系统的一个单点。如果Redis主节点挂了呢?当然,我们可以加个子节点,主节点出问题时可以切换过来。不过很可惜,这种方案不可行,因为Redis的主-从复制是异步的,我们无法用其实现互斥的安全特性。 这明显是该模型的一种竞态条件:
有时候,在某些情况下这反而工作得很好,例如在出错时,多个客户端可以获得同一个锁。如果这正好是你想要的,那就可以使用主-从复制的方案。否则,我们建议使用这篇文章中描述的方法。 单实例的正确实现方案 在尝试解决上文描述的单实例方案的缺陷之前,先让我们确保针对这种简单的情况,怎么做才是无误的,因为这种方案对某些程序而言也是可以接受的,而且这也是我们即将描述的分布式方案的基础。 为了获取锁,方法是这样的: 这条指令将设置key的值,仅当其不存在时生效(NX选项),且设置其生存期为30000毫秒(PX选项)。和key关联的value值是"my_random_value"。这个值在所有客户端和所有加锁请求中是必须是唯一的。
这么做很重要,可以避免误删其他客户端创建的锁。例如某个客户端获得了一个锁,但它的处理时长超过了锁的有效时长,之后它删除了这个锁,而此时这个锁可能又被其他客户端给获得了。仅仅做删除是不够安全的,很可能会把其他客户端的锁给删了。结合上面的代码,每个锁都有个唯一的随机值,因此仅当这个值依旧是客户端所设置的值时,才会去删除它。
我们所说的key的时间,是指”锁的有效时长“. 它代表两种情况,一种是指锁的自动释放时长,另一种是指在另一个客户端获取锁之前某个客户端占用这个锁的时长,这被限制在从锁获取后开始的一段时间窗口内。 现在我们已经有好的办法获取和释放锁了。在单实例非分布式系统中,只要保证节点没挂掉,这个方法就是安全的。那么让我们把这个概念扩展到分布式的系统中吧,那里可没有这种保证。 Redlock 算法 在此算法的分布式版本中,我们假设有N个Redis主节点。这些节点是相互独立的,因此我们不使用复制或其他隐式同步机制。我们已经描述过在单实例情况下如何安全地获取锁。我们也指出此算法将使用这种方法从单实例获取和释放锁。在以下示例中,我们设置N=5(这是个比较适中的值),这样我们需要在不同物理机或虚拟机上运行5个Redis主节点,以确保它们的出错是尽可能独立的。 为了获取锁,客户端执行以下操作:
算法依赖于这样一个假定,它在处理的时候不是(基于)同步时钟的,每个处理中仍然使用的是本地的时间,它只是大致地以同样地速率运行,这样它就会有一个小的错误,与之相比会有一个小的自动开合的时钟时间。这个假设很像真正世界的电脑:每一台电脑有一个本地时钟,通常我们使用不同的电脑会有一个很小的时钟差。 基于这个观点,我们需要更好地指明我们共同的互斥法则:这是保证客户端能长时间保持状态锁定,其将会终止它们在有效时间内的工作(在步骤3中获得),减去一些时间(在处理时时间差时减去了一些毫秒用来补偿)。 想要了解关于系统需要一个范围的时间差的内容可以获取更多的信息,这篇论文是很好的参考: Leases: an efficient fault-tolerant mechanism for distributed file cache consistency. 失败时重试 当客户端无法获取锁时,它应该在一个随机延迟后重试,从而避免多个客户端同时试图获取锁,相对应同一的同时请求(这可能会导致崩溃,没人会胜出)。同样的,客户端在大多数场合下尝试获取锁的速度越快,崩溃的窗口就越少(重试的需要也越少),所以实际情况下客户端应尝试采用复用方式发送SET命令到多个实例。 强调客户在获取主锁失败是值得的,释放(或部分)以尽快获得锁,这样没有必要为获取锁锁而去等待键到期(但是如果网络分区发生变化时客户端不能与Redis通信的情况下,需要显性提示和等待超时)。 释放锁 释放锁是简单的,只需要释放所有实例的锁即可,尽管客户端认为有能力成功锁住一个给出的实例。 安全参数 要问一个算法是安全的么?那么可以尝试着去理解在不同的情景下发生了什么。我们以假设客户端在大多数情况下都能获得锁来开始,所有的实例都包含相同生存周期的键。由于键是在不同的时间设定的,所以键也将在不同的时间超时。然而,如果第一个节点最迟在t1时刻建立(即样品接触的第一服务器之前),上一个键最迟在T2时刻建立(从上一个服务器获得回复的时间)。可以确定的是第一个键在超时之前将生存至少MIN_VALIDITY=TTL-(T2-T1)-CLOCK_DRIFT。所有其他的钥匙将到期后,钥匙将至少在这一次同时设置。 在过半的键被设置这段时间里,另一个客户端无法获得锁,如果N/2+1个键已经存在,N/2+1 SET NX操作将不能成功。所以一个锁被获取,同一时刻被重复获取是不可能的(违反互斥性)。 然而我们还想让多个客户端在获取锁的时候不能同时成功。 如果一个客户端锁定大部分实例的时间超过了锁的最大有效时间(TTL基本设定) ,它将考虑锁无效了,并解锁。所以我们仅考虑在有效时间内大部分实例获得锁的情况。这种情况已经在上文中讨论过, 对于MIN_VALIDITY没有客户端会重新获取锁。所以只有当锁大多数实例的时间超过TTL时间时,多客户端才能同时锁住N/2+1个实例(在步骤2的“时间”即将结束时),让锁失效。 你是否能提供一个形式化的证明,指出现存的足够相似的算法,或找出些bug? 那我们将感激不尽。 系统的存活性基于以下三个主要特性:
然而,在网络割裂的情况下,我们得付出等同于"TTL"时间的可用性代价,如果网络持续割裂,我们就得无限的付出这个代价。这发生于当客户端获取了一个锁,而在删除锁之前网络断开了。 基本上,如果网络无限期地持续割裂,那系统将无限期地不可用。
(编辑:安卓应用网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
