当前位置：首页 > news >正文

PDF 文档结构化工具对比：Marker 与 MinerU

news 2025/7/13 6:45:16

模型训练数据-MinerU一款Pdf转Markdown软件

https://codeyuan.blog.csdn.net/article/details/144315141

在当前大模型（LLM）和自然语言处理（NLP）应用快速发展的背景下，如何高效地将 PDF 等非结构化文档转换为结构化数据，成为了构建高质量语料库和训练数据的关键步骤。本文将深入对比两款在该领域表现突出的开源工具：Marker 和 MinerU，帮助开发者和研究人员根据自身需求选择合适的工具。

项目概览

Marker

在这里插入图片描述

项目地址：https://github.com/VikParuchuri/marker
开发者：Vik Paruchuri
核心功能：
- 支持将 PDF、EPUB、MOBI 等文档快速转换为 Markdown 或 JSON 格式。
- 多语言支持，优化处理书籍和科研论文。
- 自动去除页眉、页脚等冗余信息，保留文档结构。
- 支持表格、代码块识别与格式化，提取图像并保存。
- 大部分公式可转换为 LaTeX 格式。
- 支持 GPU、CPU 和 MPS，支持并行处理。
- 内置 OCR 功能（默认使用 Surya 引擎，可切换为 OCRmyPDF）。

MinerU

在这里插入图片描述

项目地址：https://github.com/opendatalab/MinerU
开发者：OpenDataLab（上海人工智能实验室）
核心功能：
- 一站式高质量数据提取工具，支持 PDF、网页、电子书等多种格式。
- 集成先进的文档解析模型，支持复杂布局解析（多栏、图像、表格、公式等）。
- 内置 OCR，支持 84 种语言的识别。
- 支持多种输出格式：Markdown、JSON、LaTeX、HTML 等。
- 提供可视化结果，便于验证和调试。

功能对比

功能项	Marker	MinerU
输入格式	PDF、EPUB、MOBI 等	PDF、网页、EPUB、MOBI、DOCX 等
输出格式	Markdown、JSON、HTML	Markdown、JSON、LaTeX、HTML 等
结构化提取	支持段落、标题、列表等基本结构	支持段落、标题、列表、表格、图像、公式等复杂结构
OCR 支持	支持，默认使用 Surya，可选 OCRmyPDF	支持，内置 OCR，支持 84 种语言
多栏布局	基本支持	强支持，适用于复杂多栏布局
公式识别	支持，转换为 LaTeX	支持，自动识别并转换为 LaTeX
表格识别	支持，格式化为 Markdown 或 HTML	强支持，自动转换为 LaTeX 或 HTML
图像提取	支持图像提取与保存	支持图像提取，附带图像描述功能
可视化工具	无	支持可视化布局和内容，便于验证输出
多语言支持	支持多语言，优化处理英语文档	支持 84 种语言，包括中、英、法、德、日等
处理速度	快，约 0.63 秒/页	较快，取决于文档复杂度与硬件配置
并行处理	支持 GPU 并行处理	支持 GPU 加速与多线程
资源占用	GPU 内存约 4.1GB	GPU 内存需求高，建议 16GB 以上
适用场景	结构简单的文档，如技术手册、报告等	结构复杂的文档，如论文、科技文献、扫描文档等
开源协议	GPL-3.0	AGPL-3.0