chandy-lamport 分布式一致性快照算法详细介绍

时间：2019-02-10 23:31:24 阅读：381 评论：0 收藏：0 [点我收藏+]

在一个分布式计算系统中，为了保证数据的一致性需要对数据进行一致性快照。Flink和spark在做流失计算的时候都借鉴了chandy-lamport算法的原理，这篇文章就是对chandy-lamport算法原理的详细介绍。

考虑一个分布式计算系统。

技术图片

其中有两个节点，也就是两个进程，p和q，s0，s1对应的是两个状态。token是一个令牌，全局只有一个，进程之间互相发送令牌。s0对应的状态就是进程不持有令牌，s1对应的状态就是进程持有令牌。两个进程间的连线代表消息队列，token有可能处于消息队列之中，这时候两个进程都不拥有令牌，也就是都是s0状态。这个分布式系统就这件循环地传送令牌。

由于进程是可能崩溃的，我们需要保证在进程崩溃重启后，系统仍然能够正常运行，或者说我们要从某个检查点恢复程序的运行状态，这时就需要将系统在某个时间点的状态保存起来。也就是说我们需要对分布式系统进行一次快照存储，保存每个节点在当时的状态以及每个消息队列在当时的状态。举个例子，假如在上图右上角的时刻对系统进行一个快照存储，那么对应的状态就是：

p	s0
q	s0
p->q	token
q->o	empty

假如程序在此时崩溃了，那么在重启之后，就可以恢复到保存的快照状态继续执行。

可是由于p和q是两个进程，时间不同步，假如p进程在发送token之后进行了快照存储，q进程在p发送token之前进行快照存储，那么就会出现这种情况：

1：p进程保存快照的时候由于p进程已经发送了token，token在q进程的队列中，所以p进程保存快照时认定token不在p进程也不在p进程的接收队列中。

2：q进程保存快照时由于比p进程早一些，此时p进程还没有发送token，因此q进程认定token不在q进程也不在q进程的接收队列中。

这样保存的全局快照里发现token消失不见了。

为了解决这问题，chamdy-lamport算法提出了marker消息的概念：

技术图片

在上图右上角中p发送完token后发起一次快照，发送marker给q，q接收到marker消息，保存本地状态，由于队列FIFO，所以q接收marker消息时肯定已经接收到了token，所以q保存自己状态为s1，保存p->q状态为empty，然后q发送marker给p，p接收到marker，检查在p保存状态后有没有收到q的消息，由于没有收到，所以保存q->p队列的状态为空。到此一轮快照保存结束，全局的状态为：

p	s0
q	s1
p->q	empty
q->p	empty

这个全局状态就对应的是上图右下角的状态，此时全局的一致性状态保存成功。

以上只是一个简单的例子，实际上chandy-lamport对算法的正确性有严格的公式推导，感兴趣可以参考https://lamport.azurewebsites.net/pubs/chandy.pdf

chandy-lamport 分布式一致性快照算法详细介绍

标签：com 严格问题算法发送 text body RKE ima

原文地址：https://www.cnblogs.com/yuanyifei1/p/10360465.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

chandy-lamport 分布式一致性快照 算法详细介绍

chandy-lamport 分布式一致性快照算法详细介绍