当前位置: 首页 > ds >正文

PDF 转 Markdown

本地可部署的模型

 Marker

Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。

  • 转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件
  • 在给定 JSON 架构 (beta) 的情况下进行结构化提取
  • 设置表格、表单、方程式、内联数学、链接、引用和代码块的格式
  • 提取和保存图像
  • 删除页眉/页脚/其他工件
  • 可使用您自己的格式和逻辑进行扩展
  • (可选)使用 LLM 提高准确性
  • 适用于 GPU、CPU 或 MPS

https://github.com/VikParuchuri/marker

Surya

Surya 是一个文档 OCR 工具包,它做到了:

  • 90+ 种语言的 OCR,与云服务相比具有优势
  • 任何语言的行级文本检测
  • 布局分析(表格、图像、标题等检测)
  • 读取顺序检测
  • 表识别(检测行/列)
  • LaTeX OCR

https://github.com/VikParuchuri/surya

MinerU

MinerU 是一种将 PDF 转换为机器可读格式(例如 markdown、JSON)的工具,可以轻松提取为任何格式。 MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。

https://github.com/opendatalab/MinerU

需API调用的模型工具

llamaPaser

LlamaCloud

使用样例:

pip install dotenv

pip install llama_parse

pip install llama-index-llms-openai

在 modelDownload.py 文件所在的目录创建一个名为 .env 的文件,并在其中添加以下内容:

LLAMA_CLOUD_API_KEY='llamapaser API密钥'
OPENAI_API_KEY = 'openai APkey'

配置好环境后运行代码: 

# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   # LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data("90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)print(nodes)

效果如下: 

http://www.xdnf.cn/news/12517.html

相关文章:

  • 【JVM】Java虚拟机(一)——内存结构
  • SSH实现服务器之间免密登录
  • python 爬虫工具 mitmproxy, 几问几答,记录一下
  • 关于华为仓颉编程语言
  • 从 GreenPlum 到镜舟数据库:杭银消费金融湖仓一体转型实践
  • [大A量化专栏] 夏普比率
  • 动力电池点焊机:驱动电池焊接高效与可靠的核心力量|比斯特自动化
  • 【ubuntu】虚拟机安装配置,sh脚本自动化,包含 apt+时间同步+docker+mysql+redis+pgsql
  • 如何理解OSI七层模型和TCP/IP四层模型?HTTP作为如何保存用户状态?多服务器节点下 Session方案怎么做
  • 大模型低秩微调技术 LoRA 深度解析与实践
  • MySQL全文索引
  • pg数据库表里面id值,使用sql语句赋值,唯一性
  • 小知识点一:无刷电机
  • rocketmq延迟消息的底层原理浅析
  • 多航态无人艇航态变换姿态控制系统设计与实现_可复现,有问题请联系博主
  • HZOJ新手村前段时间的刷题的笔记
  • 国内软件源镜像站一览表(2025年状态更新)
  • 使用Python做bootloader下载程序
  • Linux系统删除文件后的恢复方法
  • 1.2 fetch详解
  • 【高等数学】函数项级数
  • Langchain构建聊天机器人
  • 大模型微调(5):PEFT 微调 Qwen 大模型
  • STL优先级队列的比较函数与大堆小堆的关系
  • Kubernetes任务调度:深入理解Job与CronJob
  • Linux 常用命令与 Shell 简介
  • chatshare.xyz注册登录后,提示过期的解决方式!
  • Day130 | 灵神 | 回溯算法 | 子集型 电话号码的字母组合
  • 【DAY40】训练和测试的规范写法
  • OpenWRT prplOS-- ubus命令配置参数