当前位置：首页 > web >正文

分库分表方案中出现数据倾斜问题怎么解决

web 2025/9/6 15:13:10

一、数据倾斜的主要原因

二、解决方案

1. 调整分片策略（治本之法）

2. 处理业务热点（治标之法）

3. 其他策略

三、预防措施

总结

这是一个在分库分表实践中非常经典且棘手的问题。数据倾斜意味着数据并没有均匀地分布在不同数据库或表中，导致某些节点负载过高（存储、CPU、IO），而其他节点却非常空闲，从而成为系统瓶颈，严重影响整体性能和稳定性。

解决数据倾斜问题的核心思路是：让数据分配得更均匀，或者让系统有能力处理不均匀的数据。

下面我将从 原因、解决方案、预防措施 三个方面来详细解答。

分片键选择不当：这是最常见的原因。如果选择的分片键本身的值分布不均匀（例如，使用“性别”作为分片键，但用户中男性占80%），必然导致数据倾斜。
哈希函数不合理：即使分片键分布均匀，但如果哈希函数的散列性不好，也可能导致大量不同的键被映射到同一个桶里。
业务热点：某些数据天然就是热点。例如，在电商订单系统中，一个新上的爆款商品的所有订单都会集中在某一个分片上；或者在社交系统中，某个明星用户的动态数据会远多于普通用户。
按范围分片的边界问题：如果采用按时间范围（如按月分表）分片，但最近一个月的数据访问量远超历史数据，就会造成“最新”的表成为热点。

解决方案需要根据倾斜的原因和业务场景来针对性选择。

这是最根本的解决方案，通常需要在设计初期充分考虑，或在后期进行艰难的数据迁移。

更换分片键：
- 选择一个基数大（唯一值多）、分布均匀的字段作为分片键。
- 举例：用户表放弃用gender，改用user_id；订单表放弃用category_id，改用order_id。
使用复合分片键：
- 将分片键与另一个字段组合，计算哈希值，以打散数据。
- 举例：订单表不以user_id单独分片，而是以(user_id, order_id)的组合来计算哈希。这样即使某个用户订单极多，也会因为order_id的不同而被稍微打散到不同的分片中。
使用更优的哈希算法：
- 确保哈希算法具有良好的散列性和均匀性。CRC32、FNV、MurmurHash都是常用的高效且均匀的哈希算法。避免使用简单的取模运算，除非分片数本身就是2的N次方。
一致性哈希：
- 在增加或减少分片节点时，一致性哈希可以最小化数据迁移量。但它本身不解决数据分布不均的问题，需要配合虚拟节点技术。
- 虚拟节点：将一个物理节点映射为多个虚拟节点，让虚拟节点均匀分布在哈希环上。这样，即使某个物理节点因承载数据多而“压力大”，我们也可以通过为它分配更少的虚拟节点来“减负”，或者为压力小的节点分配更多虚拟节点来“增负”，从而实现人为的负载均衡。

当热点无法通过分片键避免时（如微博的大V），需要额外的技术手段。

二级索引：
- 对于非分片键的查询（如按商品ID查订单），如果不建立二级索引，就需要在所有分片上执行查询（扫全库），效率极低。可以通过创建二级索引表来解决问题。例如，为订单表创建一个以item_id为分片键的索引表，里面只存储item_id和对应的order_id。查询时先通过item_id在索引表找到order_id，再通过order_id（分片键）精准定位到原表记录。
热点数据分离与缓存：
- 识别热点：通过监控系统实时发现访问频率极高的数据（如某个分片的QPS异常高）。
- 读写分离：将热点分片的读流量用数据库主从架构分流到多个从库。
- 多级缓存：使用Redis等缓存中间件，将热点数据（如爆款商品信息、大V用户信息）缓存起来，极大减少对数据库的直接访问。这是应对读热点的最有效手段。
动态扩容与数据迁移：
- 当发现某个分片数据量或访问量过大时，可以增加新的数据库节点，然后从原来的热点分片中迁移一部分数据到新节点上。
- 这个过程通常非常复杂，需要借助分库分表中间件（如ShardingSphere, MyCat）的自动化扩容工具来完成，尽量避免人工操作。

设置自定义路由：
- 对于一些极端情况，可以脱离哈希算法，在代码或配置中直接指定某些特定数据到某个分片。例如，将测试用户的数据单独路由到一个不重要的分片上，避免和生产数据混在一起。

设计阶段充分调研：分析业务模型和数据分布，选择最合理的分片键和分片算法。宁可多花一周设计，也不要事后花一个月抢救。
选择成熟的中件间：强烈建议使用像 Apache ShardingSphere 或 MyCat 这样的分库分表中间件。它们内置了多种分片策略、支持读写分离、并且提供了相对完善的数据迁移和扩容方案，能帮你解决大部分底层复杂性。
加强监控：建立完善的监控体系，实时跟踪每个分片的数据量、CPU使用率、磁盘IO、QPS等指标。一旦发现倾斜苗头，立即告警并处理。

解决数据倾斜问题是一个系统工程，思路如下：