Statement

This article is my study notes about distributed systems.
Please refer to the original work for more details and indicate the source for reprinting.

1. 一致性协议Raft

Raft 也是一个一致性算法，和 Paxos 目标相同。但它还有另一个名字 - 易于理解的一致性算法。Paxos 和 Raft 都是为了实现一致性产生的。这个过程如同选举一样，参选者需要说服大多数选民 (服务器) 投票给他，一旦选定后就跟随其操作。Paxos 和 Raft 的区别在于选举的具体过程不同。

Raft 协议将 Server 进程分成三类，分别是 Leader，Candidate，Follower。一个 Server 进程在某一时刻，只能是其中一种类型，但这不是固定的。不同的时刻，它可能拥有不同的类型，一个 Server 进程的类型是如何改变的，后面会有解释。
在一个由 Raft 协议组织的集群中有三类角色：

Leader（领袖）
Follower（群众）
Candidate（候选人）

就像一个民主社会，领袖由民众投票选出。刚开始没有领袖，所有集群中的参与者都是群众，那么首先开启一轮大选。在大选期间所有群众都能参与竞选，这时所有群众的角色就变成了候选人，民主投票选出领袖后就开始了这届领袖的任期，然后选举结束，所有除领袖的候选人又变回群众角色服从领袖领导。

这里提到一个概念「任期」，用术语 Term 表达。关于 Raft 协议的核心概念和术语就这么多，而且和现实民主制度非常匹配，所以很容易理解。
raft

2. Leader选举过程

一个最小的 Raft 民主集群需要三个参与者（如下图：A、B、C），这样才可能投出多数票。
初始状态 ABC 都是 Follower，然后发起选举这时有三种可能的情形发生。
下图中前二种都能选出 Leader，第三种则表明本轮投票无效（Split Votes）。
对于第三种，每方都投给了自己，结果没有任何一方获得多数票。之后每个参与方随机休息一阵（Election Timeout）重新发起投票直到一方获得多数票。
这里的关键就是随机 timeout，最先从 timeout 中恢复发起投票的一方，向还在 timeout 中的另外两方请求投票，这时它就只能投给自己，导致很快达成一致。

raft_vote

选出 Leader 后，Leader 通过定期向所有 Follower 发送心跳信息维持其统治。
若 Follower 一段时间未收到 Leader 的心跳，则认为 Leader 可能已经挂了，然后再次发起选举过程。

3. Leader对一致性的影响

Raft 协议强依赖 Leader 节点的可用性，以确保集群数据的一致性。
数据的流向只能从 Leader 节点向 Follower 节点转移。具体过程如下：

raft_consistency

当 Client 向集群 Leader 节点提交数据后，Leader 节点接收到的数据处于未提交状态（Uncommitted）。
接着 Leader 节点会并发地向所有 Follower 节点复制数据并等待接收响应。
集群中至少超过半数的节点已接收到数据后， Leader 再向 Client 确认数据已接收。
一旦向 Client 发出数据接收 Ack 响应后，表明此时数据状态进入已提交（Committed），Leader 节点再向 Follower 节点发通知告知该数据状态已提交。

在这个过程中，主节点可能在任意阶段挂掉，看下 Raft 协议如何针对不同阶段保障数据一致性的。

3.1 数据到达 Leader 节点前，这个阶段 Leader 挂掉不影响一致性

raft_s1

3.2 数据到达 Leader 节点，但未复制到 Follower 节点

这个阶段 Leader 挂掉，数据属于未提交状态，Client 不会收到 Ack 会认为超时失败可安全发起重试。
raft_s2

Follower 节点上没有该数据，重新选主后 Client 重试重新提交可成功。原来的 Leader 节点恢复后作为 Follower 加入集群，重新从当前任期的新 Leader 处同步数据，强制保持和 Leader 数据一致。

3.3 数据到达 Leader 节点，成功复制到 Follower 所有节点，但 Follower 还未向 Leader 响应接收。

这个阶段 Leader 挂掉，虽然数据在 Follower 节点处于未提交状态（Uncommitted），但是保持一致的。重新选出 Leader 后可完成数据提交。

raft_s3
此时 Client 由于不知到底提交成功没有，可重试提交。针对这种情况 Raft 要求 RPC 请求实现幂等性，也就是要实现内部去重机制。

3.4 数据到达 Leader 节点，成功复制到 Follower 的部分节点，但这部分 Follower 节点还未向 Leader 响应接收。

这个阶段 Leader 挂掉，数据在 Follower 节点处于未提交状态（Uncommitted）且不一致。

raft_s4
Raft 协议要求投票只能投给拥有最新数据的节点。所以拥有最新数据的节点会被选为 Leader，然后再强制同步数据到其他 Follower，保证数据不会丢失并最终一致。

3.5 数据到达 Leader 节点，成功复制到 Follower 所有或多数节点，数据在 Leader 处于已提交状态，但在 Follower 处于未提交状态。

这个阶段 Leader 挂掉，重新选出新的 Leader 后的处理流程和阶段 3 一样。
raft_s5

3.6 数据到达 Leader 节点，成功复制到 Follower 所有或多数节点，数据在所有节点都处于已提交状态，但还未响应 Client。

这个阶段 Leader 挂掉，集群内部数据其实已经是一致的，Client 重复重试基于幂等策略对一致性无影响。
raft_s6

3.7 网络分区导致的脑裂情况，出现双 Leader 的现象。

网络分区将原先的 Leader 节点和 Follower 节点分隔开，Follower 收不到 Leader 的心跳将重新发起选举产生新的 Leader，这时就产生了双Leader 现象。

raft_s7

原先的 Leader 独自在一个区，向它提交数据不可能复制到多数节点所以永远提交不成功。向新的 Leader 提交数据可以提交成功。

网络恢复后，旧的 Leader 发现集群中有更新任期（Term）的新 Leader ，则自动降级为 Follower 并从新 Leader 处同步数据达成集群数据一致。

[Raft开源实现库]https://raft.github.io/#implementations

参考
分布式理论(六) - 一致性协议Raft

分布式: 一致性协议Raft

Statement

1. 一致性协议Raft

2. Leader选举过程

3. Leader对一致性的影响

3.1 数据到达 Leader 节点前，这个阶段 Leader 挂掉不影响一致性

3.2 数据到达 Leader 节点，但未复制到 Follower 节点

3.3 数据到达 Leader 节点，成功复制到 Follower 所有节点，但 Follower 还未向 Leader 响应接收。

3.4 数据到达 Leader 节点，成功复制到 Follower 的部分节点，但这部分 Follower 节点还未向 Leader 响应接收。

3.5 数据到达 Leader 节点，成功复制到 Follower 所有或多数节点，数据在 Leader 处于已提交状态，但在 Follower 处于未提交状态。

3.6 数据到达 Leader 节点，成功复制到 Follower 所有或多数节点，数据在所有节点都处于已提交状态，但还未响应 Client。

3.7 网络分区导致的脑裂情况，出现双 Leader 的现象。

Recommend

JVM内存分配小总结

Git复习

GRUB Recovery

GitHub - gongfukangEE/CS-Notes: Computer Science Learning Notes

Raspberry Pi 4 Setup

Assertions vs if checks

An efficient GIT workflow for mid/long term projects

Kubernetes 1.24 将结束对dockershim 的支持-51CTO.COM

以科技为矛？倍轻松去年净利增长近三成，营销支出是研发的10倍

Test-Driven Development By Example

About Joyk