如何使用DeepSeek解析长pdf的文本
直接使用python工具解析pdf文件,可能因为格式兼容问题,导致解析出的文本几乎不可读。
这里尝试使用Deepseek解析pdf文件,这里仅考虑文本,不考虑其他要素。
1 解析第一步
将pdf作为附件上传到deepseekchat界面,输入如下所示提示词。
转化为txt格式文本,需要按原文完整输出,需要尽可能输出,越多越好。
保存deepseek解析后的txt文本。
2 继续解析
由于受长度限制,第一步往往不能完整解析pdf全文,需要考虑继续解析的问题。
prompt示例如下,提示deepseek继续输出。
“请继续从"3.3 现场环境卫生和卫生防疫 "开始输出,将3章输出完整。”
另外,还需要定义格式,这样本次输出格式和上次输出格式就能保持一致。
转化为txt格式文本,需要按原文完整输出,需要尽可能输出,越多越好。
请继续从"3.3 现场环境卫生和卫生防疫 "开始输出,将3章输出完整。
格式定义如下
---
#### 3.3 现场环境卫生和卫生防疫
3.3.1 建设单位、施工单位应当根据建筑垃圾减排处理和绿色施工有关规定,采取措施减少建筑垃圾的产生,对施工工地的建筑垃圾实施集中分类管理;具备条件的,对工程施工中产生的建筑垃圾进
将deepseek输出拼接到上次解析后的txt文本。
如此,重复多次就能获得完整的pdf转txt后的文本,且格式规范。
reference
---
deepseek
https://chat.deepseek.com/a/chat