当前位置: 首页 > news >正文

SMARTGRAPHQA —— 基于多模态大模型的PDF 转 Markdown方法和基于大模型格式校正方法

一个基于 Python 的工具,利用多模态大模型(MLLM)将 PDF 文档转换为结构清晰、格式准确的 Markdown 文件。支持图像提取、Base64 编码、分段保存和可选的内容校正功能,适用于长文档的高精度转换。


代码连接:点击这里

📌 主要功能

  • PDF 转图像:使用 PyMuPDFfitz)将每页 PDF 高清渲染为图像。
  • 图像转 Markdown:通过多模态大模型(如 Qwen-VL)识别图像内容并生成结构化 Markdown。
  • 断点续存机制:每处理 N 页自动保存一次,防止程序中断导致前功尽弃。
  • 图像导出选项:可选择将 PDF 页面保存为 JPG 图像用于调试或归档。
  • Markdown 内容校正:支持使用上下文信息对生成内容进行修订,提升连贯性与格式一致性。
  • 灵活提示词配置:可通过模板或自定义 prompt 控制模型行为。
  • 指定页码范围:支持只处理 PDF 的某一部分页面。
  • 双模式修订:可选择使用 MLLM 多模态模型或纯语言模型(LLM)进行内容修订。

效果图

在这里插入图片描述

🧰 项目结构

确保项目结构如下:

SmartGraphQA/
├── Models/
│   ├── vision_models.py      # 多模态模型封装
│   └── LLM_Models.py         # 语言模型封装
├── ExtraTools/
│   └── extractDocument/
│       ├── extractPrompt.py  # 提示词模板
│       └── Pdf2Img2Md.py  # 本工具主文件

🚀 使用示例

from ExtraTools.extractDocument.PDFToMarkdownConverter import PDFToMarkdownConverterpdf_file = "xxx.pdf"
output_folder 
http://www.xdnf.cn/news/1455661.html

相关文章:

  • 滑动窗口题目:水果成篮
  • C 盘清理技巧分享:释放磁盘空间,提升系统性能
  • ArcGIS学习-15 实战-建设用地适宜性评价
  • 适应新环境:Trae编辑器下的IDEA快捷键定制
  • 解密大语言模型推理:Prompt Processing 的内存管理与计算优化
  • C++语言编程规范-常量
  • 既“强悍”又“灵活”,部署在用户身边,将直播延迟压缩至毫秒级
  • Kafka 学习教程:从基础概念到实践操作
  • 分析流程自动优化!Fabarta个人专属智能体「数据分析」新功能介绍
  • 打工人日报#20250904
  • docker中的mysql变更宿主机映射端口
  • 以StarRocks为例讲解MPP架构和列式存储
  • vscode launch.json 中使用 cmake tools 扩展的命令获取可执行文件目标文件名
  • 设计师的私有化远程协作解决方案,是OpenUI与cpolar组合的标配功能
  • 目标检测系列-Yolov5下载及运行
  • 深度学习下的单阶段通用目标检测算法研究综述2.0
  • Java全栈工程师的实战面试:从Vue到Spring Boot的技术旅程
  • PSU电源原理
  • 双指针扫描使用简述
  • 【AI论文】面向大语言模型(LLMs)的具身强化学习全景图:一项调研综述
  • 新闻稿的发布平台有哪些?选对渠道让发稿效果事半功倍!
  • 移远EC200A OpenCPU笔记
  • 一文吃透同态滤波算法!从原理到 MATLAB 实战,小白也能懂
  • 解析PE文件的导入表和导出表
  • 准确率可达99%!注意力机制+UNet,A会轻松收割!
  • 20250904的学习笔记
  • HTML + CSS 创建图片倒影的 5 种方法
  • 大数据毕业设计选题推荐-基于大数据的儿童出生体重和妊娠期数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
  • 加密货币武器化:恶意npm包利用以太坊智能合约实现隐蔽通信
  • 性能堪比claude sonnet4,免费无限使用!claude code+魔搭GLM4.5在ubuntu上安装完整流程