Zk 集群跨洲迁移方案

背景

自去年年底，我们开始规划从香港到新加坡机房迁移ClickHouse（简称“ck”）集群。目前，ck集群所有实例已成功迁移到新加坡机房，仅留下依赖的Zookeeper（简称“zk”）集群在香港机房。近期，我们计划将zk集群平滑迁移到新加坡机房。

目标与挑战

1.1 Zk 跨洲迁移需对用户基本无感知

ck集群承载公司实时数据分析需求，支持多线上服务。ck集群不可停机，任何时刻都需保持可用状态。ck的架构设计高度依赖zk进行元数据存储、副本同步及表变更管理。一旦zk不可用，ck的读写都会受到影响。在zk集群迁移期间，leader切换会导致读写问题，这是一个不小的挑战。

1.2 热升级+动态配置更新

为实现目标，我们在迁移过程中采取以下措施：

从写入层做好重试，避免zk切主过程中的失败。

尽量缩短zk不可用的时间。

对zk操作采用热升级方式，滚动操作。

因为zk集群IP全部更换，需更改大量配置，尽量采用reload方式，而非重启服务。

整体方案

2.1 第一步：Zk从静态配置版本升级到动态配置版本

zk 3.5.0版本后支持动态配置特性，可方便扩容和缩容操作，无需对整个zk集群进行滚动重启。然而，当前ck所用的zk集群尚未采用动态配置，因此迁移的第一步是将zk集群从静态配置版本平滑升级到动态配置版本。升级详情可参考相关文档。

2.2 第二步：Zk扩缩容实现搬迁

在ck集群升级到动态配置版本后，通过扩容和缩容操作实现zk集群从香港老机房到新加坡新机房的平滑迁移。具体步骤如下：

扩容：将新加坡机房的新机器一台一台加入到zk集群中。

通过reconfig -add命令逐步添加新机器，确保每台机器加入后检查集群状态和ck读写情况。

新机器配置包含香港老机房和新加坡新机房的所有zk实例。

修改ck配置：将ck配置中的zk服务器列表全部更换为新加坡新机房的IP地址。

检查所有ck实例是否成功连接到新配置的zk实例，确保无异常。

缩容：将香港老机房的老机器一台一台从zk集群中摘除。

优先缩容Follower实例，最后缩容Leader实例。

每次缩容后检查集群状态和ck读写情况，确保无异常。

遇到的问题和解决方案

2.1 Zk静态配置版本与动态配置版本不兼容

在升级Follower实例时，发现升级过程中Follower实例会报错：

Follower报错日志如下：java.io.EOFException    at java.io.DataInputStream.readInt(DataInputStream.java:392)    at org.apache.jute.BinaryInputArchive.readInt(BinaryInputArchive.java:63)    at org.apache.zookeeper.server.quorum.QuorumPacket.deserialize(QuorumPacket.java:85)    at org.apache.jute.BinaryInputArchive.readRecord(BinaryInputArchive.java:99)    at org.apache.zookeeper.server.quorum.Learner.readPacket(Learner.java:158)    at org.apache.zookeeper.server.quorum.Learner.registerWithLeader(Learner.java:336)    at org.apache.zookeeper.server.quorum.Follower.followLeader(Follower.java:78)    at org.apache.zookeeper.server.quorum.QuorumPeer.run(QuorumPeer.java:1271)

此外，尚未升级的Leader实例也会报错：

Leader报错日志如下：java.io.IOException: Follower is ahead of the leader (has a later activated configuration)    at org.apache.zookeeper.server.quorum.LearnerHandler.run(LearnerHandler.java:398)

问题原因：