当前位置：首页 > backend >正文

[Linux] -- 大文件拆分、合并与校验全解析：处理 GB/TB 级文件

backend 2025/6/19 1:26:09

在 Linux 环境下，处理 GB 乃至 TB 级别的大文件是运维与开发工作中的常见场景。无论是传输镜像包、备份日志，还是迁移大数据文件，直接操作大文件往往面临传输易中断、存储管理不便等问题。这时，将大文件拆分后分块处理，再合并还原的方法就显得尤为重要。本文将详细介绍大文件拆分、合并及完整性校验的全流程，帮你应对这类任务。

一、为什么需要拆分大文件？

传输效率问题：传输单个大文件时，一旦网络中断，就需要从头开始，耗时耗力。而拆分后分块传输，即使某一块传输失败，只需重新传输该部分。
存储适配需求：部分存储系统对单个文件大小有限制，拆分大文件能够满足存储要求，同时也便于文件的分类管理。

二、大文件拆分：使用 `split` 命令

假设我们有一个名为 large_file.tar 的大文件，需要将其拆分成每个 10GB 的小文件。

1. 基础拆分操作

执行以下命令：

split -b 10G -d large_file.tar split_part-

-b 10G：指定每个拆分后文件的大小为 10GB，也可根据需求使用 K（千字节）、M（兆字节）等单位。
-d：使用数字后缀命名拆分后的文件，如 split_part-00、split_part-01 等，相较于默认的字母后缀，数字后缀更直观。
split_part-：拆分后文件的前缀，用于统一命名规范。

执行命令后，当前目录下会生成一系列以 split_part- 开头的分块文件，最后一块文件大小可能小于 10GB，取决于原文件总大小是否为 10GB 的整数倍。

2. 按数量拆分

如果希望将文件拆分为固定数量的块，而不考虑每块的具体大小，可以使用 -n 参数。例如，将文件拆分为 5 块：

split -n 5 large_file.tar split_part-

三、分块文件合并：借助 `cat` 命令

完成文件分块传输或存储后，需要将这些分块文件合并回原始文件。

1. 合并命令

cat split_part-* > large_file.tar

cat 命令会按照文件名的字典序读取所有以 split_part- 开头的文件，并将它们的内容依次拼接起来，重定向到 large_file.tar 文件中，实现文件的合并。

2. 验证合并顺序

为确保合并顺序正确，可以通过以下两种方式进行验证：

查看文件列表顺序：使用 ls -l split_part-* 命令查看分块文件列表，确认文件顺序是否符合预期。
带行号合并：执行 cat -n split_part-* > large_file_with_line.tar 命令， -n 参数会为每一行内容添加行号，合并后通过查看行号是否连续递增，判断文件合并顺序是否正确。