这一次，彻底搞懵 CRDT

开发运维 2024-03-11 穿过生命散发芬芳手机阅读

我是前端西瓜哥，今天我们来简单入门一下 CRDT。

CRDT 是什么？

CRDT，全称为 conflict-free replicated data type（无冲突复制数据类型），它是一种数据类型，或者说是方案，确保在网络中的不同副本最后数据保持一致的，可以用协同编辑领域。

CRDT 在 2011 年在论文中被正式提出，虽相比 OT 算法（1989年）起步晚了很长的时间，但实现难度低很多，且出现了高性能的 CRDT 库 Y.js，越来越多产品选择使用 CRDT 来实现协同编辑功能。

CRDT 有以下特性：

每个客户端可独自操作副本，即支持并发，不需要和其他副本协同沟通。

这是一种乐观复制（Optimistic replication）的策略。

各个副本可以独立地在本地编辑，不用把更新提交到服务器，等待服务端返回最新的状态，用这个新状态覆盖掉旧状态。即可做到离线编辑，本地更新了状态后再同步到服务端。

算法能够自动地处理不一致的问题。

一个副本和另一个副本通常是不同的，当其他副本同步过来时，有可能会出现冲突（不一致）的地方，比如两个副本同时删除和新增一个元素。

这个需要 CRDT 算法使用特定的策略去自动处理，而不是像 git merge 那样去手动处理冲突。

同一时刻不同副本的状态可能不同，但同步后它们能最终收敛（converge），达到相同的状态（最终一致性）。

CRDT 的类型

CRDT 主要分为两大类型：Operation-based 和 State-based。

Operation-based

Operation-based CRDTs，基于操作的 CRDT。

副本进行同步时，只会把新增的本地操作（operation）发送出去。

另一个副本拿到这个 operation 会将其应用到自己的状态上，operataion 需要满足交换律（commutative）。

交换律，指的是交换运算顺序，最后的结果不变。比如加法就满足交换律，a+b 和 b+a 的结果是相等的。

operataion 之所以要满足交换律，是因为网络并不可知。

假设有两个副本 a 和 b 要同步过来给其他副本，你不知道到底谁先到达。对于一些副本可能是先 a 后 b，另一些可能是先 b 后 a，我们需保证在不同顺序下，结果是一致的。

通常我们是通过 Generator 函数生成新的 opreation，发送给其他副本，然后这些副本通过 Effector 函数应用这些副本。

因为交换律这个特性，Operation-based CRDTs 还有另一个名字 commutative replicated data types（CmRDTs）。

基于操作的 CRDT 的优点是，传输的数据量较少。

State-based

State-based CRDTs，基于状态的 CRDT。

一个副本进行同步时，会将整个完整的本地状态（state）发送出去。另一个副本需要支持将其他副本进行合并（merge）的操作，这个 merge 方法需要满足交换律、分配律，以及幂等性。

基于状态的 CRDT 的问题是，在文档很大时，需要传输大量的数据，会耗费大量的带宽，且花费时间长。所有实际生产很少会使用它。

优点是实现更简单，如果数据量不大，是可以考虑使用的。

State-based CRDTs 同样也有另一个名字：Convergent Replicated Data Types（CvRDTs）。Convergent 是收敛的意思。

一些 CRDT

CRDT 做到数据最终一致性，是基于数学上的特性来保证的。

我们来看几个简单的 CRDT 模型。

AWSet

AWSet（Add-wins set），一种新增优先于删除的集合数据结构。

假如刚开始的时候，副本 A 和副本 B 的状态是一致的，有一个 a 在集合中。

副本 A 删除了 a，然后再新增 a。

副本 B 删除了 a。

副本 A 的新增 a 和副本 B 的删除 a 同时发生。

此时我们会选择新增，忽略删除，最后两个副本的状态还是 a 在集合中。

为判断两个操作是否是 “同时” 的，我们会附加一个和时序相关的元数据，比如时间戳、版本向量。

RWSet

RWSet（Remove-win set），一种删除优先新增的集合数据结构。

AWSet 类似，但对于并发的操作，会保留删除，丢弃新增。

LWW

LWW（Last-writer-wins），最后写入者优先。

所有的操作会有一个时间戳元数据，副本会对比同步操作的时间戳。

如果大于当前状态时间戳，覆盖掉原来的状态；如果小于当前状态时间戳，则忽略。

2P-Set

Two-Phase Set。

此模型会维护两个集合，一个是新增集合，保存新增的元素，另一个是删除集合，保存被删除的元素。

模型的最终状态为新增集合和删除集合的差集。

另外，集合比较特殊，它是只增集合（grow-only set），只能往集合里加元素，不能从集合里移除元素。

这意味着一个元素如果被删除了，就再也不能添加回来。所以删除集合也被叫做 tombstone set（墓碑集合），人噶不能复生。

2P-Set 也算是一种 RW-Set（删除优先），特别的点在于元素被删除后不能新增回来。

G-Counter

G-Counter，Grow-only Counter，只增计数器，一个只能增加计数的计数器。

此模型使用 n 个节点的容器（一个整数数组），每个副本会分配一个 id，某个副本给计数器 +1，其实就会给对应的数组元素 +1。

计数器的值为数组的求和。

PN-Counter

PN-Counter，Positive-Negative Counter，一个支持增减的计数器。

多个 CRDT 可以组合成一个更复杂的 CRDT。

类似 G-Counter，但 PN-Counter 使用两个 G-Counter，一个保存新增数（新增操作），另一个保存减少数（减少操作）。

计数器的值为新增数组求和减去减少数组的和。

YATA

最后我们看看复杂点的，简单介绍一下 Y.js 的 YATA（Yet Another Transformation Approach）模型。

假设我们有值为 "ABCD" 的字符串。

YATA 模型会将其拆分成一个个字符，加上元数据，然后按顺序首尾相连组成一个双链表。

 // 大概这样子
{
  id: '2:0', // 客户端 ID + clock ID
  val: 'B',
  left: a, // 当前节点的左节点
  right: c, // 右节点
  origin: a, // 节点创建时的左节点
  rightOrigin: c // 节点创建时的右节点
}

操作有 “插入” 和 “删除”。

假设本地在 AB 之间插入 E，此时没有发送同步，然后收到其他副本传过来的 F，也是要插入到 AB 之间。

此时 E 和 F 是冲突的，我们会对唯一的 id（某种意义上的时间戳）使用特定的规则来决定先后顺序。

至于删除操作，因为插入操作需要找到在左右节点的位置，所以节点即使被删除了也是不能从双链表中移出的。

对此，YATA 选择使用墓碑机制。YATA 将对应节点标记为删除（item.deleted 设置为 true），并将节点记录到删除集合 DeleteSet 里。

这里其实可以看到，CRDT 通常是需要加很多元数据的，尤其是复杂数据结构且数据量较大的场景，所以这也是 CRDT 起初被诟病占用内存高的原因。

但 Y.js 通过一系列手段（比如将多个节点合并为一个大节点），将性能优化到足够面对大多数场景，证明了用 CRDT 是做协同编辑的是不用担心性能问题的，如果有，一定是你没优化好。

结尾

本文只是简单介绍一些 CRDT 是什么，并感受了一些简单的 CRDT 模型，希望对你有所帮助。

	// 大概这样子
	{
	id: '2:0', // 客户端 ID + clock ID
	val: 'B',
	left: a, // 当前节点的左节点
	right: c, // 右节点
	origin: a, // 节点创建时的左节点
	rightOrigin: c // 节点创建时的右节点
	}