当前位置：首页 > news >正文

如何使用DeepSeek解析长pdf的文本

news 2025/8/20 10:22:32

直接使用python工具解析pdf文件，可能因为格式兼容问题，导致解析出的文本几乎不可读。

这里尝试使用Deepseek解析pdf文件，这里仅考虑文本，不考虑其他要素。

1 解析第一步

将pdf作为附件上传到deepseekchat界面，输入如下所示提示词。

转化为txt格式文本，需要按原文完整输出，需要尽可能输出，越多越好。

保存deepseek解析后的txt文本。

2 继续解析

由于受长度限制，第一步往往不能完整解析pdf全文，需要考虑继续解析的问题。

prompt示例如下，提示deepseek继续输出。

“请继续从"3.3 现场环境卫生和卫生防疫 "开始输出，将3章输出完整。”

另外，还需要定义格式，这样本次输出格式和上次输出格式就能保持一致。

转化为txt格式文本，需要按原文完整输出，需要尽可能输出，越多越好。

请继续从"3.3 现场环境卫生和卫生防疫 "开始输出，将3章输出完整。

格式定义如下
---
#### 3.3 现场环境卫生和卫生防疫
3.3.1 建设单位、施工单位应当根据建筑垃圾减排处理和绿色施工有关规定，采取措施减少建筑垃圾的产生，对施工工地的建筑垃圾实施集中分类管理；具备条件的，对工程施工中产生的建筑垃圾进

将deepseek输出拼接到上次解析后的txt文本。

如此，重复多次就能获得完整的pdf转txt后的文本，且格式规范。

reference

---

deepseek

https://chat.deepseek.com/a/chat

查看全文

http://www.xdnf.cn/news/1327357.html