当前位置: 首页 > news >正文

MySQL学习---分库和分表

        在当今互联网应用快速发展的情况下,各种数据量呈现爆炸式增长。当 MySQL 数据库中的数据量达到一定规模后,单库单表的架构会面临性能瓶颈,此时分库分表技术成为解决这一问题的重要手段。

        分库分表是在大规模数据场景下,将原本存储在单一数据库和数据表中的数据,按照一定规则分散存储到多个数据库和数据表中的技术方案。​其中,二者分别是:

(1)分库:将一个数据库按照某种规则拆分到多个不同的数据库服务器上,每个数据库只存储一部分数据。​

(2)分表:将一个数据表按照某种规则拆分到多个不同的数据表中,这些表可以在同一个数据库,也可以在不同的数据库。​

        例如,一个电商平台的订单表,当订单量达到数亿条时,单表查询会非常缓慢,此时就可以将订单表按照时间或用户 ID 进行分表,同时将不同的分表部署到不同的数据库服务器上,实现分库分表。​

        分库分表的核心原理是 "数据分片",即按照预设的规则将数据分散存储,从而降低单库单表的数据量,提高数据库的操作性能。​

        分库主要有两种方式:​

(1)水平分库:按照数据的某种特征(如用户 ID 哈希),将同一类业务的数据分散到多个数据库中,每个数据库的表结构相同。​

(2)垂直分库:按照业务模块将数据分散到不同的数据库,如将用户数据、商品数据、订单数据分别存储在不同的数据库。​

        同样的,分表也分为两种方式:​

(1)水平分表:将一个表中的数据按照某种规则(如时间范围、ID 范围)拆分到多个结构相同的表中,每个表只包含一部分数据。​

(2)垂直分表:将一个表中字段较多的表,按照字段的冷热程度或业务关联性拆分成多个表,每个表包含一部分字段。​

        分库分表通常需要借助中间件(如 Sharding-JDBC、MyCat 等)实现,中间件负责解析 SQL,根据分片规则路由到对应的库和表,并将结果汇总返回。​其作用主要有:

(1)提升查询性能​:当数据量庞大时,单库单表的查询会导致索引失效、磁盘 IO 频繁等问题。分库分表后,每个库和表的数据量减少,查询时扫描的数据范围缩小,索引效率提高,从而提升查询速度。​

(2)提高系统可用性:​单库架构下,数据库一旦出现故障,整个系统都会受影响。分库后,不同的业务数据在不同的数据库,一个数据库故障不会导致所有业务瘫痪,提高了系统的可用性。​

(3)便于水平扩展​:分库分表采用分布式架构,当数据量继续增长时,可以通过增加数据库服务器和数据表的方式进行水平扩展,而无需对现有架构进行大规模改造。​

(4)优化资源利用​:垂直分库可以将不同业务的数据分离,便于针对不同业务的特点分配不同的硬件资源。例如,对读写频繁的订单库配置更高性能的服务器,对查询较少的历史数据存储库使用普通服务器。​

        这些方法可以带来许多优点,如​

(1)解决性能瓶颈:有效降低单库单表的数据量,避免因数据量过大导致的查询缓慢问题。​

(2)支持高并发:分散了数据库的访问压力,多个库表可以同时处理请求,提高了系统的并发处理能力。​

(3)便于维护:单个库表的数据量小,备份、恢复、索引重建等操作更加高效。​

        但它们也有不少缺点,例如:​

(1)增加系统复杂度:分库分表需要设计分片规则,引入中间件,使系统架构变得复杂,开发和维护成本提高。​

(2)分布式事务问题:跨库操作时,事务的一致性难以保证,需要采用分布式事务解决方案(如 TCC、SAGA 等),增加了实现难度。​

(3)跨库查询困难:原本简单的联表查询在分库分表后变得复杂,需要中间件进行二次处理,可能影响性能。​

(4)数据迁移复杂:当分片规则需要调整时,数据迁移过程复杂,容易出现数据不一致的问题。​

        下面用几个案例来演示一下这两种方法

        (1)水平分表示例(按 ID 范围)​

        假设我们有一个订单表order,当数据量过大时,按 ID 范围进行水平分表:​

-- 创建分表1:存储ID 1-1000000的订单
CREATE TABLE `order_1` (`id` bigint(20) NOT NULL AUTO_INCREMENT,`user_id` bigint(20) NOT NULL,`amount` decimal(10,2) NOT NULL,`create_time` datetime NOT NULL,PRIMARY KEY (`id`),KEY `idx_user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;-- 创建分表2:存储ID 1000001-2000000的订单
CREATE TABLE `order_2` (`id` bigint(20) NOT NULL AUTO_INCREMENT,`user_id` bigint(20) NOT NULL,`amount` decimal(10,2) NOT NULL,`create_time` datetime NOT NULL,PRIMARY KEY (`id`),KEY `idx_user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
spring:shardingsphere:datasource:names: db1db1:type: com.zaxxer.hikari.HikariDataSourcedriver-class-name: com.mysql.cj.jdbc.Driverurl: jdbc:mysql://localhost:3306/db1username: rootpassword: rootrules:sharding:tables:order:actual-data-nodes: db1.order_${1..2}table-strategy:standard:sharding-column: idsharding-algorithm-name: order_inlinesharding-algorithms:order_inline:type: INLINEprops:algorithm-expression: order_${id % 2 + 1}props:sql-show: true

        上述配置的主要内容为,当插入或查询订单数据时,Sharding-JDBC 会根据订单 ID 对 2 取模,决定数据存储在order_1还是order_2表中。​

        (2)垂直分表示例​

        对于包含多个字段的用户表user,进行垂直分表:​

-- 基本信息表:存储常用字段
CREATE TABLE `user_base` (`id` bigint(20) NOT NULL AUTO_INCREMENT,`username` varchar(50) NOT NULL,`password` varchar(100) NOT NULL,`phone` varchar(20) NOT NULL,`create_time` datetime NOT NULL,PRIMARY KEY (`id`),UNIQUE KEY `idx_username` (`username`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;-- 详细信息表:存储不常用字段
CREATE TABLE `user_detail` (`id` bigint(20) NOT NULL AUTO_INCREMENT,`user_id` bigint(20) NOT NULL,`address` varchar(200) DEFAULT NULL,`birthday` date DEFAULT NULL,`education` varchar(50) DEFAULT NULL,PRIMARY KEY (`id`),KEY `idx_user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

        垂直分表后,查询用户基本信息时只需访问user_base表,减少了数据传输量,提高了查询效率。​

        分库分表是应对 MySQL 大数据量场景的重要技术方案,通过数据分片的方式将数据分散存储,有效提升了数据库的查询性能和并发处理能力,同时提高了系统的可用性和可扩展性。​但是它们也有各自的优缺点,只有深入理解分库分表的原理和优缺点,结合实际业务需求进行合理设计和实施,才能充分发挥其优势,构建高性能、高可用的数据库架构。​

http://www.xdnf.cn/news/1212373.html

相关文章:

  • 简述:关于二轮承包地确权二轮承包输出数据包目录结构解析
  • 《UE教程》第三章第五回——第三人称视角
  • 【编号65】广西地理基础数据(道路、水系、四级行政边界、地级城市、DEM等)
  • DooTask教育行业功能:开启高效学习协作新篇章
  • 每天五分钟:Linux网络配置与命令_day9
  • 大语言模型API付费?
  • 力扣 hot100 Day60
  • ConcurrentHashMapRedis实现二级缓存
  • 【网络工程师软考版】路由协议 + ACL
  • eBPF 赋能云原生: WizTelemetry 无侵入网络可观测实践
  • NSGA-III(非支配排序遗传算法 III)求解 7 目标的 DTLZ2 测试函数
  • Redis学习------缓存雪崩
  • Spring Boot音乐服务器项目-查询喜欢的音乐模块
  • 企业级应用安全传输:Vue3+Nest.js AES加密方案设计与实现
  • 常见CMS获取webshell的方法-靶场练习
  • 基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(三)
  • YOLOv5u:无锚点检测的革命性进步
  • 智能AI医疗物资/耗材管理系统升级改造方案分析
  • 【C++】类和对象(中)拷贝构造、赋值重载
  • BT131-800-ASEMI家电领域专用BT131-800
  • Hutool 的 WordTree(敏感词检测)
  • 第2章 cmd命令基础:常用基础命令(2)
  • 中国高铁从追赶到领跑的破壁之路
  • 磁盘io查看命令iostat与网络连接查看命令netstat
  • FFmpeg,如何插入SEI自定义数据
  • MidJourney精选图集与提示词生成器:AI创意灵感与高效提示词工具
  • 无监督MVSNet系列网络概述
  • 高效管理Hosts文件的终极工具
  • 【Qt开发】信号与槽(三)-> 自定义信号和槽
  • Python 程序设计讲义(46):组合数据类型——集合类型:集合间运算