当前位置: 首页 > news >正文

数据库分区与分表详解

数据库分区与分表详解

一、数据库分区 (Partitioning)

分区是将一个大表在物理上分割成多个更小的、更易管理的部分,但在逻辑上仍然表现为一个表。

1. 分区类型及SQL实现

(1) RANGE 分区 (按范围)
CREATE TABLE sales (id INT NOT NULL,sale_date DATE NOT NULL,amount DECIMAL(10,2),region VARCHAR(50)
) PARTITION BY RANGE (YEAR(sale_date)) (PARTITION p2020 VALUES LESS THAN (2021),PARTITION p2021 VALUES LESS THAN (2022),PARTITION p2022 VALUES LESS THAN (2023),PARTITION pmax VALUES LESS THAN MAXVALUE
);
(2) LIST 分区 (按列表)
CREATE TABLE employees (id INT NOT NULL,name VARCHAR(50),store_id INT
) PARTITION BY LIST (store_id) (PARTITION pNorth VALUES IN (1, 3, 5),PARTITION pSouth VALUES IN (2, 4, 6),PARTITION pOther VALUES IN (DEFAULT)
);
(3) HASH 分区 (哈希分布)
CREATE TABLE users (id INT NOT NULL,username VARCHAR(50),created_at DATETIME
) PARTITION BY HASH (id)
PARTITIONS 4;
(4) KEY 分区 (类似HASH但MySQL处理键)
CREATE TABLE logs (id INT NOT NULL,log_time DATETIME,content TEXT
) PARTITION BY KEY (id)
PARTITIONS 5;
(5) COLUMNS 分区 (支持多列)
CREATE TABLE rc3 (a INT,b INT
) PARTITION BY RANGE COLUMNS(a,b) (PARTITION p0 VALUES LESS THAN (10,10),PARTITION p1 VALUES LESS THAN (20,20),PARTITION p2 VALUES LESS THAN (MAXVALUE,MAXVALUE)
);

2. 分区管理操作

-- 添加分区
ALTER TABLE sales ADD PARTITION (PARTITION p2023 VALUES LESS THAN (2024)
);-- 删除分区
ALTER TABLE sales DROP PARTITION p2020;-- 重组分区
ALTER TABLE sales REORGANIZE PARTITION pmax INTO (PARTITION p2023 VALUES LESS THAN (2024),PARTITION pmax VALUES LESS THAN MAXVALUE
);-- 查看分区信息
SELECT * FROM information_schema.PARTITIONS 
WHERE TABLE_NAME = 'sales';

二、数据库分表 (Sharding)

分表是将数据分散到多个物理表中,每个表都是独立的,需要应用层或中间件管理。

1. 分表实现方式

(1) 应用层分表
-- 用户表按ID范围分表
CREATE TABLE users_0 (id BIGINT PRIMARY KEY,name VARCHAR(100),CHECK (id >= 0 AND id < 1000000)
);CREATE TABLE users_1 (id BIGINT PRIMARY KEY,name VARCHAR(100),CHECK (id >= 1000000 AND id < 2000000)
);-- 查询时需要指定表
SELECT * FROM users_0 WHERE id = 123;
SELECT * FROM users_1 WHERE id = 1500000;
(2) 使用视图统一访问
CREATE VIEW users AS
SELECT * FROM users_0
UNION ALL
SELECT * FROM users_1;
(3) 使用存储过程路由
DELIMITER //
CREATE PROCEDURE insert_user(IN p_id INT, IN p_name VARCHAR(100))
BEGINDECLARE table_suffix INT;SET table_suffix = FLOOR(p_id / 1000000);SET @sql = CONCAT('INSERT INTO users_', table_suffix, ' VALUES (?, ?)');SET @param1 = p_id;SET @param2 = p_name;PREPARE stmt FROM @sql;EXECUTE stmt USING @param1, @param2;DEALLOCATE PREPARE stmt;
END //
DELIMITER ;

2. 分表查询策略

(1) 并行查询各分表
-- 查询所有分表中符合条件的记录
(SELECT * FROM users_0 WHERE name LIKE '张%')
UNION ALL
(SELECT * FROM users_1 WHERE name LIKE '张%');
(2) 按分片键精准查询
-- 根据ID计算应该查询哪个表
SET @table_num = FLOOR(1500000 / 1000000);
SET @sql = CONCAT('SELECT * FROM users_', @table_num, ' WHERE id = 1500000');
PREPARE stmt FROM @sql;
EXECUTE stmt;
DEALLOCATE PREPARE stmt;

三、分区与分表对比

特性分区分表
管理方式数据库自动管理需要应用层或中间件管理
透明性对应用完全透明应用需要知道分表规则
跨分区查询数据库自动处理需要手动UNION或分布式查询
维护成本
扩展性有限(同一数据库实例)强(可跨服务器)
适用场景单机大表超大规模数据、分布式系统

四、最佳实践建议

  1. 分区适用场景

    • 单表数据量超过千万级
    • 有明显的范围或列表查询特征
    • 需要定期删除历史数据(直接删除分区效率高)
  2. 分表适用场景

    • 单机性能无法满足需求
    • 需要水平扩展到多台服务器
    • 不同分表可以有不同结构
  3. 混合使用方案

    -- 先分表再分区
    CREATE TABLE orders_0 (id BIGINT,user_id INT,order_date DATE,amount DECIMAL(10,2)
    ) PARTITION BY RANGE (TO_DAYS(order_date)) (PARTITION p202201 VALUES LESS THAN (TO_DAYS('2022-02-01')),PARTITION p202202 VALUES LESS THAN (TO_DAYS('2022-03-01')),PARTITION pFuture VALUES LESS THAN MAXVALUE
    );
    
  4. 现代解决方案

    • 使用分库分表中间件:ShardingSphere、MyCat
    • 云数据库的分片功能:AWS Aurora、阿里云PolarDB
    • 分布式数据库:TiDB、CockroachDB

选择分区还是分表应根据具体业务场景、数据规模和团队技术能力综合评估。

http://www.xdnf.cn/news/408169.html

相关文章:

  • java 中 pojo 的详细讲解
  • BGP练习
  • Java 内存模型(JMM)与内存屏障:原理、实践与性能权衡
  • Python基础:类的深拷贝与浅拷贝-->with语句的使用及三个库:matplotlib基本画图-->pandas之Series创建
  • 用户态到内核态:Linux信号传递的九重门(二)
  • 微信小程序仿淘宝拍照/照片点位识图、点位裁剪生图、图片裁剪组件、图片点位框选、裁剪生成图片,canvasToImg
  • 使用 DMM 测试 TDR
  • Ai应用部署离不开Docker环境
  • shell脚本实现docker运行镜像挂载
  • 【分享】利用自定义表单,文件摆渡系统实现数据合规与高效流转
  • Spark,hadoop 集群的常用命令
  • 科技快讯 | 字节跳动开源一款Deep Research项目;全球首个氮化镓量子光源芯片发布
  • 如何使用 Winget 命令安装 Microsoft Teams
  • 2.2 微积分的解释
  • Xubuntu系统详解
  • 解决pip安装PyPI默认源速度慢
  • TCPIP详解 卷1协议 八 ICMPv4和ICMPv6 Internet控制报文协议
  • Bash 执行命令的基本流程
  • [Java][Leetcode middle] 121. 买卖股票的最佳时机
  • tensorflow-cpu
  • 9.渐入佳境 -- 套接字的多种可选项
  • 配置yarn模式
  • 使用 gma 绘制汉魏洛阳城
  • 针对面试-mysql篇
  • 人工智能100问☞第21问:神经网络如何模拟人脑结构?
  • 自适应主从复制模拟器的构建与研究
  • mysql dump 导入导出用法
  • 2024河南省赛vp补题
  • SQL:JOIN 进阶
  • 基于大模型的原发性醛固酮增多症全流程预测与诊疗方案研究