当前位置: 首页 > ops >正文

借助于llm将pdf转化为md文本

pdf转化为md格式后,意味着非结构化文本转为结构化文本,能清晰定位大标题、子标题,图表。

方便后续处理,因为llamaindex和langchain能更有效切分md类文本,避免信息丢失。

1)读取pdf为txt

读取pdf,并使用RecursiveCharacterTextSplitter去尝试分块,一般情况下效果不好

pdf文本暂时表示recur_text

from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitterfrom pypdf import PdfReader
# 读取 PDF 文件
pdf_path = 'docs/word.pdf'
reader = PdfReader(pdf_path)
recur_text = ''
for page in reader.pages:recur_text += page.extract_text().strip() + "\n\n"recur_splitter = RecursiveCharacterTextSplitter(separators=["。"],chunk_size = 512,chunk_overlap  = 128
)
recur_docs = recur_splitter.create_documents([recur_text])

2)使用llm将txt转化为md

qwen或deepseek小一点的LLM不能完成这个任务,deepseek-r1完整版本可以。

prompt示例如下

# 示例调用
prompt = """
请将以下合同转化为md格式。
---
{}
""".format(recur_text)

若recur_text太长,需要切分后分批调用。

另外一种方式,就是将pdf先转化为图谱,在调用qwen2.5-vl模型解析图片输出md5文档。

reference

---

qwen2.5vl-pdf2md

https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

olmocr

https://github.com/allenai/olmocr

六个开源的PDF转Markdown项目

https://zhuanlan.zhihu.com/p/711487482

llm-parse

https://github.com/tanchangsheng/llm-parse

http://www.xdnf.cn/news/16675.html

相关文章:

  • 深度解析领域特定语言(DSL)第七章:语法分析器组合子 - 用乐高思维构建解析器
  • Linux 计划任务管理
  • 【n8n】如何跟着AI学习n8n【03】:HTTPRequest节点、Webhook节点、SMTP节点、mysql节点
  • AI IDE+AI 辅助编程-生成的大纲-一般般
  • Visual Studio调试技巧与函数递归详解
  • mac环境配置rust
  • rabbitmq的安装和使用-windows版本
  • python基础语法3,组合数据类型(简单易上手的python语法教学)(课后习题)
  • 前端 vue 第三方工具包详解-小白版
  • 云原生环境 DDoS 防护:容器化架构下的流量管控与弹性应对
  • C++语言的发展历程、核心特性与学习指南
  • #C语言——刷题攻略:牛客编程入门训练(一):简单输出、基本类型
  • 量子安全:微算法科技(MLGO)基于比特币的非对称共识链算法引领数字经济未来
  • XPATH选择器常用语法
  • 磁盘坏道检测工具在美国服务器硬件维护中的使用规范
  • 云原生运维与混合云运维:如何选择及 Wisdom SSH 的应用
  • 从“碎片化”到“完美重组”:IP报文的分片艺术
  • 计算机视觉CS231n学习(1)
  • 网络编程学习
  • UE5保姆级新手教程第六章(角色互动)
  • python的异步、并发开发
  • 关于项目的一些完善功能
  • C语言:函数指针、二级指针、常量指针常量、野指针
  • 基于deepseek的事件穿透分析-风险传导图谱
  • Linux系统编程Day1-- 免费云服务器获取以及登录操作
  • 分层解耦(Controller,Service,Dao)
  • [Agent开发平台] API网关 | 业务领域 | DTO格式 | 分页令牌
  • 当人生低谷无人帮助时,如何独自奏响人生乐章
  • Abaqus2022下载与保姆级安装教程!!
  • 人工智能通信协议三种协议:MCP协议、A2A协议、AG-UI协议是什么