当前位置：首页 > news >正文

SMARTGRAPHQA —— 基于多模态大模型的PDF 转 Markdown方法和基于大模型格式校正方法

news 2025/9/5 9:56:41

一个基于 Python 的工具，利用多模态大模型（MLLM）将 PDF 文档转换为结构清晰、格式准确的 Markdown 文件。支持图像提取、Base64 编码、分段保存和可选的内容校正功能，适用于长文档的高精度转换。

代码连接：点击这里

📌 主要功能

✅ PDF 转图像：使用 PyMuPDF（fitz）将每页 PDF 高清渲染为图像。
✅ 图像转 Markdown：通过多模态大模型（如 Qwen-VL）识别图像内容并生成结构化 Markdown。
✅ 断点续存机制：每处理 N 页自动保存一次，防止程序中断导致前功尽弃。
✅ 图像导出选项：可选择将 PDF 页面保存为 JPG 图像用于调试或归档。
✅ Markdown 内容校正：支持使用上下文信息对生成内容进行修订，提升连贯性与格式一致性。
✅ 灵活提示词配置：可通过模板或自定义 prompt 控制模型行为。
✅ 指定页码范围：支持只处理 PDF 的某一部分页面。
✅ 双模式修订：可选择使用 MLLM 多模态模型或纯语言模型（LLM）进行内容修订。

效果图

在这里插入图片描述

🧰 项目结构

确保项目结构如下：

SmartGraphQA/
├── Models/
│   ├── vision_models.py      # 多模态模型封装
│   └── LLM_Models.py         # 语言模型封装
├── ExtraTools/
│   └── extractDocument/
│       ├── extractPrompt.py  # 提示词模板
│       └── Pdf2Img2Md.py  # 本工具主文件

🚀 使用示例

from ExtraTools.extractDocument.PDFToMarkdownConverter import PDFToMarkdownConverterpdf_file = "xxx.pdf"
output_folder

查看全文

http://www.xdnf.cn/news/1455661.html

滑动窗口题目：水果成篮

C 盘清理技巧分享：释放磁盘空间，提升系统性能

ArcGIS学习-15 实战-建设用地适宜性评价

适应新环境：Trae编辑器下的IDEA快捷键定制

解密大语言模型推理：Prompt Processing 的内存管理与计算优化

C++语言编程规范-常量

既“强悍”又“灵活”，部署在用户身边，将直播延迟压缩至毫秒级

Kafka 学习教程：从基础概念到实践操作

分析流程自动优化！Fabarta个人专属智能体「数据分析」新功能介绍

打工人日报#20250904

docker中的mysql变更宿主机映射端口

以StarRocks为例讲解MPP架构和列式存储

vscode launch.json 中使用 cmake tools 扩展的命令获取可执行文件目标文件名

设计师的私有化远程协作解决方案，是OpenUI与cpolar组合的标配功能

目标检测系列-Yolov5下载及运行

深度学习下的单阶段通用目标检测算法研究综述2.0

Java全栈工程师的实战面试：从Vue到Spring Boot的技术旅程

PSU电源原理

双指针扫描使用简述

【AI论文】面向大语言模型（LLMs）的具身强化学习全景图：一项调研综述

新闻稿的发布平台有哪些？选对渠道让发稿效果事半功倍！

移远EC200A OpenCPU笔记

一文吃透同态滤波算法！从原理到 MATLAB 实战，小白也能懂

解析PE文件的导入表和导出表

准确率可达99%！注意力机制+UNet，A会轻松收割！

20250904的学习笔记

HTML + CSS 创建图片倒影的 5 种方法

加密货币武器化：恶意npm包利用以太坊智能合约实现隐蔽通信

性能堪比claude sonnet4,免费无限使用！claude code+魔搭GLM4.5在ubuntu上安装完整流程

📌 主要功能

效果图

🧰 项目结构

🚀 使用示例

相关文章：