当前位置：首页 > news >正文

MinerU本地化部署

news 2025/8/31 9:42:49

github：https://github.com/opendatalab/MinerU

官网：MinerU

是什么？

MinerU 专注于高效解析和提取复杂的 PDF 文档、网页和电子书，并将其转换为易于分析的 Markdown 或 JSON 格式。由上海人工智能实验室OpenDataLab 团队开发。

主要功能包括

• PDF 转 Markdown
支持多模态 PDF(含图片、表格、公式等)的结构化转换。自动去除页眉、页脚、脚注等干扰信息，保留标题、段落、列表等结构。公式识别并转换为 LaTeX 格式，表格转换为 HTML 或 Markdown。

• 网页内容提取:从网页中剔除广告等干扰信息，精准提取正文、评论、视频文字等内容。

• 电子书转换:支持epub、mobi、docx、pptx、chm、azw等格式批量转Markdown。
• 多语言OCR:自动检测扫描版PDF和乱码，支持84种语言的OCR识别

核心技术

布局检测:基于LayoutLMv3微调，识别文本、表格、图片等区域。
公式识别:使用YOLOv8检测公式，UniMERNet模型转换LaTeX。
OCR 增强:采用 PaddleOCR 提高文本识别准确率

应用场景

大模型训练:为书生·浦语等模型提供高质量语料。
学术研究:提取论文、教材中的关键信息。
法律与金融:解析合同、研报等结构化数据。

MinerU使用

在线使用

链接为：https://mineru.net/OpenSourceTools/Extractor，把相应的文件拖到下面的框中，就能解析。

例如把《2025年招生专业目录（大报纸-官方）.pdf》传到MinerU中，就能解析成功，如下图所示：

客户端

链接：https://mineru.net/client

下载之后，安装，就能在本地进行解析文档了

API

链接：https://mineru.net/apiManage

1、申请API TOKEN

2、代码

通过API（https://mineru.net/api/v4/extract/task），提交PDF，获取task_id

import requeststoken = "官网申请的api token"
url = "https://mineru.net/api/v4/extract/task"
header = {"Content-Type": "application/json","Authorization": f"Bearer {token}"
}
data = {"url": "https://cdn-mineru.openxlab.org.cn/demo/example.pdf","is_ocr": True,"enable_formula": False,
}res = requests.post(url,headers=header,json=data)
print(res.status_code)
print(res.json())
print(res.json()["data"])

本地化部署

由于线上的方式，涉及到安全，所以一般公司都会私有化部署。私有化部署的方式如下：

1、pip install -U "magic-pdf[full]"

2、下载依赖的models

3、分析pdf

magic-pdf -p 三国演义.pdf -o ./output

总结

大的文档解析能力

多格式支持:支持PDF、PPT、DOCX、EPUB、MOBI 复杂布局处理:精准识别单栏、多栏、跨页排版，并按照人类阅读顺序输出文本多模态提取:提取文本、图片、表格、公式、页眉、页脚、脚注等元素，并智能去除无关内容(如广告、页码)。

智能转换与结构化输出

Markdown/JSON输出:支持将PDF转换为机器可读的Markdown或JSON格式，保留标题、段落、列表等原始结构。公式与表格处理:自动识别数学公式并转换为LaTeX格式，表格可转换为HTML或LaTeX格式。 OCR多语言支持:内置OCR功能，支持84种语言(包括繁简中文)，可自动检测扫描版PDF并启用OCR。