当前位置: 首页 > news >正文

如何使用DeepSeek解析长pdf的文本

直接使用python工具解析pdf文件,可能因为格式兼容问题,导致解析出的文本几乎不可读。

这里尝试使用Deepseek解析pdf文件,这里仅考虑文本,不考虑其他要素。

1 解析第一步

将pdf作为附件上传到deepseekchat界面,输入如下所示提示词。

转化为txt格式文本,需要按原文完整输出,需要尽可能输出,越多越好。

保存deepseek解析后的txt文本。

2 继续解析

由于受长度限制,第一步往往不能完整解析pdf全文,需要考虑继续解析的问题。

prompt示例如下,提示deepseek继续输出。

“请继续从"3.3 现场环境卫生和卫生防疫 "开始输出,将3章输出完整。”

另外,还需要定义格式,这样本次输出格式和上次输出格式就能保持一致。

转化为txt格式文本,需要按原文完整输出,需要尽可能输出,越多越好。

请继续从"3.3 现场环境卫生和卫生防疫 "开始输出,将3章输出完整。
 

格式定义如下
---
#### 3.3 现场环境卫生和卫生防疫  
3.3.1 建设单位、施工单位应当根据建筑垃圾减排处理和绿色施工有关规定,采取措施减少建筑垃圾的产生,对施工工地的建筑垃圾实施集中分类管理;具备条件的,对工程施工中产生的建筑垃圾进

将deepseek输出拼接到上次解析后的txt文本。

如此,重复多次就能获得完整的pdf转txt后的文本,且格式规范。

reference

---

deepseek

https://chat.deepseek.com/a/chat

http://www.xdnf.cn/news/1327357.html

相关文章:

  • 需求开发广告系列 Gmail广告投放教程
  • 跨域信息结构:四界统一的动态机制
  • 大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
  • 机器学习概念(面试题库)
  • 智慧校园中IPTV融合对讲:构建高效沟通新生态
  • [激光原理与应用-305]:光学设计 - 单个光学元件(纯粹的光学元件)的设计图纸的主要内容、格式与示例
  • 北京国标调查:以科学民意调查赋能决策,架起沟通与信任的桥梁(满意度调查)
  • PicoShare 文件共享教程:cpolar 内网穿透服务实现跨设备极速传输
  • 数控滑台的功能与应用范围
  • 如何用给各种IDE配置R语言环境
  • 大数据云原生是什么
  • 如何计算 PCM 音频与 YUV/RGB 原始视频文件大小?
  • 【AI】算法环境-显卡、GPU、Cuda、NVCC和cuDNN的区别与联系
  • JVM垃圾回收(GC)深度解析:原理、调优与问题排查
  • 牛津大学xDeepMind 自然语言处理(2)
  • kkfileview预览Excel文件去掉左上角的跳转HTM预览、打印按钮
  • 浅看架构理论(二)
  • ‌关于人工智能(AI)的发展现状和未来趋势的详细分析!
  • Kubernetes 简介
  • 【SpringBoot】Dubbo、Zookeeper
  • 【网络运维】Ansible roles:角色管理
  • Android Studio Git提交环境变量问题总结
  • NestJS 依赖注入方式全解
  • 源代码安装部署lamp
  • AI Deep Research 思维链简介
  • 微服务-06.微服务拆分-拆分原则
  • 云手机矩阵:重构企业云办公架构的技术路径与实践落地
  • OpenSSL与OpenSSH的关系
  • SpringBoot-集成POI和EasyExecl
  • PG靶机 - Pebbles