当前位置：首页 > web >正文

Redis 主从复制

web 2025/7/5 10:48:25

分布式系统

Redis 主要运用于分布式系统，其中涉及到一个非常关键的问题：单点问题 ——>

如果某个服务器程序，只有一个节点（只有一个物理服务器，来部署服务器程序）

1）可用性问题，如果这个机器挂了，服务也就中断了

2）性能 / 支持的并发量是比较有限的

引入分布式系统，主要也是解决上述的单点问题 ——>

在分布式系统中，一般希望有多个服务器来部署 Redis 服务，从而构成一个 Redis 集群

此时，可以让这个集群给整个分布式系统中的其他服务，提供更稳定 / 更高效的数据存储功能

在分布式系统，使用多个服务器部署 Redis 方式，存在以下几种：

1）主从模式

2）主从 + 哨兵模式

3）集群模式

主从复制作用

在若干个 Redis 服务器中，有一个是“主节点”，其余的是“从节点”

从节点上的数据跟随主节点变化，从节点的数据要和主节点保持一致

例如，在主节点上有一些数据，引入从节点后，需要把主节点上的数据复制放到从节点上。后续主节点这边对数据的修改，会同步到从节点上（从节点相当于是主节点的副本）

Redis 主从模式中，从节点上的数据不允许从客户端修改，只能读取数据

主从模式，主要是针对“读操作”进行并发量&可用性的提高

对于写操作，无论是可用性还是并发量，都非常依赖主节点（主节点只有一个）

对于单个 Redis 服务器节点，机器挂了，整个 Redis 也就挂了

对于主从结构，可以把机器放到不同机房（异地多活）

在主从结构中，如果从节点挂了，其余从节点可以继续从主节点或者其他从节点获取数据，效果完全相同

如果主节点挂了，从节点只能读数据，如果需要写数据，就不能进行

由于从节点的数据都是实时与主节点保持一致的

在从节点和主节点中读取数据，是没有区别的

此时引入了更多的计算资源，能支撑的并发量也大幅提高

拓扑结构

若干个节点之间，进行组织连接的方式

一主一从

主节点执行读操作和写操作，从节点执行写操作

当请求数量太多 ——> 可以关闭主节点的 aof 文件，只开启从节点上的 aof 文件

当主节点挂了，不能让主节点自动启动

没有 aof 文件，重启会丢失数据。一旦主从同步，从节点上的数据也会被删 ——>

当主节点挂了，让主节点从从节点获取 aof 文件，再启动

一主多从

主节点上的数据发生改变，会把改变的数据同时同步给所有的从节点

随着从节点的个数增加，同一条数据需要传输多次

树状主从

主节点消耗的网络带宽减少

但是修改数据，同步时的延迟是比之前长的

基本流程

1）开始配置主从同步关系后,从节点只保存主节点的地址信息,此时建立复制的流程还没开始

从节点中保存,主节点的 ip 和 port ,但是主节点的连接状态（master-link-status）是下线状态

2）从节点内部通过每秒运行的定时任务维护复制相关逻辑，当定时任务发现新的主节点后，会尝试与主节点建立基于 TCP 的网络连接。如果从节点无法建立连接，定时任务会无限重试直至建立成功或者用户停止主从复制

3）建立连接成功后，从节点通过 ping 命令确认主节点在应用层上是工作良好的

如果 ping 命令的结果 pong 回复超时，从节点会断开 TCP 连接，等待定时任务下次重新建立连接

4）如果主节点设置 requirepass 参数，需要密码验证

从节点通过配置 masterauth 参数来设置密码。如果验证失败，则从节点的复制会停止

5）对于首次建立复制的场景，主节点会把当前持有的所有数据全部发给从节点，这步操作基本是耗时最长的（全量复制）

6）当从节点复制了主节点的所有数据后，针对之后的修改命令，主节点会持续的把命令发送给从节点，从节点执行修改命令，保证主从数据的一致性（增量复制）

TCP 三次握手，验证通信双方是否能正确读取数据（系统层面）

3）发送 ping 命令，验证主节点能否正常工作

数据同步

psync 执行数据同步

上述命令不需要手动执行，Redis 服务器会在建立好主从关系后，自动执行

从节点负责执行 psync 从主节点拉取数据

psync replicationid offset

replicationid 设为 ? ，offset 设为 -1，尝试进行全量复制

replicationid offset 设为具体值正整数，尝试进行增量复制

主节点

从节点

1）replicationid 由主节点生成

主节点启动时会自动生成，从节点晋升成主节点时也会生成（即使同一个主节点，每次重启 replicationid 的值也不同）

从节点和主节点建立联系后，就会从主节点这边获取到 replicationid

当主节点和从节点通信时，如果发生网络波动，从节点可能认为主节点挂了

此时，从节点会成为主节点（自己生成一个 replicationid，同时保存之前的 replicationid为 replicationid2），后续网络稳定时，从节点可以根据 replicationid2 再连接主节点

上述过程可以手动干预，也可以自动完成（哨兵机制）

2）offset 偏移量

主节点和从节点上都会维护偏移量（整数）

主节点的偏移量收到修改操作的命令占据的字节总和

从节点的偏移量从节点从主节点同步的数据量

replicationid offset 共同描述了一个“结果集合”

如果两台机器，replicationid 和 offset 一样，可以认为两台Redis机器上存储的数据完全一样

上述过程中，不是从节点索要那部分数据，主节点就给部分数据，主节点会自行判定

FULLRESYNC 全量数据的同步

CONTINUE 增量数据的同步

ERR 老版本的 Redis 服务器不支持 psync，可以使用 sync 替代

全量复制：

1.首次和主节点进行数据同步

2.主节点不方便进行部分复制

增量复制：

1.从节点已经从主节点上复制过数据，因为网络抖动重启或者从节点重启（此时大部分数据相似）

全量复制

1）从节点发送 psync 命令给主节点进行数据同步，由于是第一次进行复制，从节点没有主节点的运行 id 和复制偏移量，所以发送 psync ？-1

2）主节点根据命令，解析出要进行全量复制，回复 +FULLRESYNC 响应

3）从节点接收到主节点的运行信息进行保存

4）主节点执行 bgsave 进行 rdb 文件的持久化

5）主节点发送 rdb 文件给从节点，从节点保存 rdb 数据到本地硬盘

6）主节点将从生成 rdb 到接收完成期间执行的命令，写入缓冲区，等从节点保存完 rdb 文件后，主节点再将缓冲区内的数据补发给从节点，补发的数据仍按照 rdb 的二进制格式追加到收到的 rdb 文件中，保持主从一致性

7）从节点清空自身原有的旧数据

8）从节点加载 rdb 文件得到和主节点一样的数据

9）从节点加载 rdb 完成后，并且开启了 AOF 持久化功能，会进行 bgrewrite 操作，得到最近的 aof 文件

3）保存主节点 replid

4）不能使用已有的 rdb 文件，必须重新生成，已有的 rdb 文件可能会和当前最新的数据差异较大

5）从节点开启 AOF，在上述加载过程中，会产生大量的 aof 日志

针对 aof 日志进行必要的处理

无硬盘模式

主节点在进行全量复制时，也支持“无硬盘模式”（diskless）

主节点生成的 rdb 的二进制数据，不直接保存到文件中，直接在网络中传输

从节点之前是先收到二进制的 rdb 数据，写到硬盘，再加载，此时直接把收到的数据进行加载

（省下一系列写硬盘和读硬盘的操作，此处的 rdb 数据不是为了重启，同步数据）

即便引入“无硬盘模式”，整个操作仍然是比较重量的，网络传输是无法省略的

部分复制

从节点要从主节点这里进行全量复制（全量复制开销很大）

如果从节点已经持有主节点的绝大部分数据，此时就不需要全量复制

出现网络抖动，主节点修改的数据可能无法及时同步，当从节点已经感觉不到主节点时，从节点可能会升级成主节点

在从节点和主节点重新连接后，需要同步数据

psync 带有具体的 replid 和 offset 值，主节点只需要根据 psync 的参数判断即可

1）当主节点和从节点之间出现网络中断，超过 repl-timeout 时间，主节点会认为从节点故障，终端复制连接

2）从节点连接中断期间，主节点依然相应，这些命令因为网络中断无法及时发送给从节点，暂时保存在复制积压缓冲区

3）主节点网络恢复时，从节点再次连上主节点

4）从节点将之前的保存的 replid 和 offset 作为 psync 的参数发送给主节点，请求进行部分复制

5）主节点接收到 psync 请求后，进行必要的验证。根据 offset 去复制积压缓冲区查找合适的数据，并响应 +CONTINUE 给从节点

6）主节点将需要从节点同步的数据发送给从节点，完成一致性