当前位置：首页 > ai >正文

使用 Java 替换和修改 PDF 文本的方法

ai 2025/8/30 7:18:51

在日常工作中，PDF 文件作为一种常用的电子文档格式，广泛应用于合同、报告、说明书等场景。然而，PDF 文档往往在生成后仍然需要进行修改，例如修正拼写错误、更新公司名称或统一日期格式。相比重新制作文档，直接在现有 PDF 文件中替换文本能够大大提高效率。

本文将介绍如何基于 Spire.PDF for Java 库实现对 PDF 文本的替换与修改，涵盖 固定字符串替换 和 基于正则表达式的灵活替换 两种方式。

1. 引入依赖

在使用 Spire.PDF for Java 前，需要在项目中引入库文件。

如果使用 Maven，可以在 pom.xml 中添加依赖：

<repositories><repository><id>com.e-iceblue</id><name>e-iceblue</name><url>https://repo.e-iceblue.cn/repository/maven-public/</url></repository>
</repositories>
<dependencies><dependency><groupId>e-iceblue</groupId><artifactId>spire.pdf</artifactId><version>11.8.3</version></dependency>
</dependencies>

非 Maven 项目则可去 E-iceblue 官网手动下载 jar 包并导入项目中。

2. 加载 PDF 文档

通过 PdfDocument 类即可加载一个 PDF 文件：

import com.spire.pdf.PdfDocument;public class ReplaceTextInPdf {public static void main(String[] args) {// 创建 PdfDocument 实例PdfDocument pdf = new PdfDocument();// 加载 PDF 文件pdf.loadFromFile("测试.pdf");// 后续操作...}
}

3. 替换固定字符串

如果待修改的内容是已知的固定字符串，可以通过 PdfTextReplacer.replaceAllText() 方法进行替换。例如，将文档中的“荷塘”替换为“池塘”：

// 创建一个 PdfTextReplaceOptions 对象
PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();// 指定文本替换的选项（同时忽略大小写并按全词匹配）
textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.WholeWord));// 遍历 PDF 文档所有页面
for (int i = 0; i < doc.getPages().getCount(); i++) {PdfPageBase page = doc.getPages().get(i);// 根据页面创建一个 PdfTextReplacer 对象PdfTextReplacer textReplacer = new PdfTextReplacer(page);// 设置替换选项textReplacer.setOptions(textReplaceOptions);// 将所有目标文本实例替换为新文本textReplacer.replaceAllText("荷塘", "池塘");
}// 将文档保存到不同的 PDF 文件
doc.saveToFile("输出.pdf");// 释放资源
doc.dispose();

这种方式适用于需要批量替换某个明确词语的场景，比如公司名称、产品型号或合同编号。

4. 使用正则表达式替换文本

在实际工作中，替换目标可能并不是一个固定的字符串，而是符合某种模式的文本。例如：

批量修改日期格式；
替换所有手机号为脱敏格式；
统一数据单位。

这类需求可以结合正则表达式来实现。

下面的示例展示了如何使用正则表达式替换 PDF 中的文本：

// 创建一个 PdfTextReplaceOptions 对象
PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();// 将替换类型设置为 Regex
textReplaceOptions.setReplaceType(EnumSet.of(ReplaceActionType.Regex));// 获取特定页面（这里获取第1页，索引为0）
PdfPageBase page = doc.getPages().get(0);// 根据页面创建一个 PdfTextReplacer 对象
PdfTextReplacer textReplacer = new PdfTextReplacer(page);// 设置替换选项
textReplacer.setOptions(textReplaceOptions);// 指定正则表达式
String regularExpression = "荷.月";// 将所有匹配正则表达式的目标文本替换为新文本
textReplacer.replaceAllText(regularExpression, "池塘花");// 将文档保存到新的 PDF 文件
doc.saveToFile("out.pdf");// 释放资源
doc.dispose();

借助正则表达式，可以灵活处理各种非固定文本的替换需求，例如批量调整日期、统一格式、脱敏处理等。