Ollama-OCR:基于Ollama多模态大模型的端到端文档解析和处理
基本介绍
Ollama-OCR是一个Python的OCR解析库,结合了Ollama的模型能力,可以直接处理 PDF 文件无需额外转换,轻松从扫描版或原生 PDF 文档中提取文本和数据。根据使用的视觉模型和自定义提示词,Ollama-OCR 可支持多种语言,并且能把文档转换为特定的格式进行输出。
1. 支持多种视觉模型
可以从Ollama上选择最新的视觉模型:
● gemma3:来自谷歌的最新多模态模型
● llama4:Meta的多模态模型,中文能力有限
● qwen2.5vl:阿里千问团队最新的视觉语言模型
或选择其他更加适合特定任务的视觉模型
2. 多种输出格式,并且可自定义提示词
Ollama-OCR 提供多种输出格式以适应不同场景:
● Markdown:保留结构化格式,包括标题和列表
● 纯文本:提取干净、无格式的文本
● JSON:便于集成的结构化数据输出
● 结构化格式:提取并组织表格和层级内容
● 键值对:适合处理表单、发票和收据
● 表格:高效提取所有表格数据
使用方法
首先使用 pip 安装 Ollama-OCR:
pip install ollama-ocr
确保 Ollama 服务正在运行,并下载所需模型以获得最佳性能,如下载qwen2.5vl:
ollama pull qwen2.5vl
加载模型:
from ollama_ocr import OCRProcessor# 创建一个实例并指定模型
ocr = OCRProcessor(model_name='qwen2.5vl:7b')
处理文档:
result = ocr.process_image(image_path="论文.pdf", # pdf文档路径format_type="text", # 文档类型language="zh", # 语言custom_prompt="请提取其中的文字" # 可选,可选择用自定义prompt或预设好的prompt
)
效果实测
选择了一篇学术论文,含有表格
提取文本
result = ocr.process_image(image_path="论文.pdf",format_type="text",language="zh",custom_prompt="请提取其中的文字"
)
Page 1:
图片中的文字内容如下:---**中国农业科学学报 2015 年 5 月 第 23 卷 第 5 期****Chinese Journal of Eco-Agriculture, May 2015, 23(5): 564-562****旱改水对水稻幼苗生长的影响及秸秆的改良作用****阎加力 李懋 双逢** 涂书新(华中农业大学资源与环境学院 武汉 430070 中国)**摘要** 本研究以江汉平原旱改水为研究背景,采用土壤盆栽试验和室内淹水培养相结合的方法,以多年水旱轮作土壤为对照,研究了多年旱作田改水后稻田土壤中生长和发育元素的含量以及对土壤氧化还原电位和有效铁、锰、锌的含量变化,为旱改水水稻品种选育提供参考。结果表明,稻田改水后,水稻根系生长速率明显降低且根系变短。其地上部干重和叶绿素含量分别约为未稻水处理的 30%和 20%。旱田水处理后土壤中 Fe 含量显著低于,而 Cu 和 Zn 含量则分别高于稻水处理。稻田土壤改水土壤氧化还原电位比原旱田土壤的低,而 DTPA-Fe 含量比原旱田土壤的高 7%左右,而 DTPA-Cu 和 DTPA-Zn 含量则分别比原旱田土壤的 1.4-2.5 倍和 1.6-1.8 倍。随着淹水时间的增加,稻田土壤改水土壤氧化还原电位逐渐增加,而 Fe、Cu 和 Zn 含量则先升高后降低趋势;到淹水处理的第 28 d,稻田土壤改水土壤氧化还原电位、铁、铜和锌含量与水旱田之间均呈负相关趋势。Fe 不足及 Cu 过量可能是导致旱改水水稻幼苗生长缓慢、根系变短的主要原因。旱田条件下添加磷钾肥可以降低土壤的 Fe 含量,提高土壤 DTPA-Fe 含量及氧化还原电位,DTPA-Cu 和 DTPA-Zn 含量。压茬种植和初春灌水均能有效降低叶绿素含量,但对根系生长量显著且直截了当。添加秸秆并不能完全补偿磷钾肥对水稻幼苗生长的作用。**关键词** 旱改水 棉田 水稻 水稻幼苗 土壤氧化还原电位 铁 锌 铜**中图分类号** S156.2, S344**文献标识码** A 文献编号:1671-3990(2015)05-0554-09---**Effect of reclamining cotton field into paddy field and straw application on rice seedling growth****YAN Jiali, LI Mao, XIONG Shuanglan, TU Shuxin**(College of Resources and Environment, Huazhong Agricultural University, Wuhan 430070, China)**Abstract** In recent years, paddy deficiency of rice (Oryza sativa L.) characterized by black filaments/paleaules and disordered rice lemma and palea has caused significant yield loss of rice grown in uplands reclaimed into paddy lands in Hanzhong Plain, Hubei Province, China. Up to now, it remains unclear why rice paddy deficiency is prevalent in reclaimed paddy lands from uplands. However, studies have shown that paddy deficiency is largely related with soil characteristics. Using old paddy field as control, a pot soil experiment was carried out to investigate the effects of old cotton fields reclaimed into paddy fields and rice straw application on the growth of rice seedlings. The study also analyzed rice mineral elements uptake, soil pH, and soil available Fe, Mn, Zn, and Cu contents. Soil waterlogged incubation test was adopted to study the effects of straw application on dynamic changes of DTPA-Fe, DTPA-Mn, DTPA-Zn, and DTPA-Cu contents in the old paddy fields and paddy fields from cotton field. The results showed that rice seedlings in cotton fields reclaimed into paddy fields grow poorly and had symptoms of chlorosis, with dry weight and chlorophyll content of respectively 30% and 20% those of rice seedlings in old paddy fields. While Fe content was significantly lower, Cu and Zn contents were markedly higher in rice plants in cotton fields than in old paddy fields. As with prolonged inundation, DTPA-Fe content in cotton field soils gradually increased.**Keywords** Reclamation of upland into paddy field, Rice seedling growth, Soil pH, Soil available Fe, Mn, Zn, and Cu, Soil waterlogged incubation test, Rice straw application---**国家自然科学基金项目(41401406)资助****联系人:** 阎加力,华中农业大学资源与环境学院,E-mail: xiaojiali@hau.edu.cn**通讯作者:** 主要从事土壤与植物营养研究,E-mail: 261342995@qq.com**收稿日期:** 2014-09-09 接受日期:2015-03-03**http://www.ecoagri.ac.cn**
提取并保留为markdown格式
result = ocr.process_image(image_path="论文.pdf",format_type="text", language="zh",custom_prompt="请提取其中的文字,并保留为Markdown格式"
)
丢失了摘要的英文部分
Page 1:
```markdown
**中国农业大学学报** 2015 年 5 月 第 23 卷 第 5 期Chinese Journal of Eco-Agriculture, May 2015, 23(5): 564-562DOI: 10.13930/j.cnki.ekjagri.140140**旱改水对水稻幼苗生长的影响及秸秆的改良作用**阎加力 李懋 双逢* 涂书新(华中农业大学资源与环境学院 武汉 430070, China)摘 要 本研究以江汉平原旱改水为研究背景, 采用土壤盆试验和室内淹水培养相结合的方法, 以多年水旱轮作土壤为对照, 研究了多年旱作田改水后稻田土壤中生长和发育元素的含量以及对土壤氧化还原电位和有效铁、锰、锌的含量变化, 为旱改水水稻品种选育提供参考。结果表明, 旱田改水后, 水稻根系生长速率明显出现显著下降的现象。其地上部干重和叶绿素含量分别约为未稻水处理的 30%和 20%。旱田改水处理后土壤 Fe 含量显著低于, 而 Cu 和 Zn 含量则分别高于稻水轮作处理。据土壤旱改水土壤质地比原质地(砂)高而有机质含量低的特点, 该田土壤水土比为 1.5:1, 土壤 DTPA-Fe 含量是旱田水土比的 7%左右, 而 DTPA-Cu 和 DTPA-Zn 含量则分别比水轮作的 1.4-2.5 倍和 1.6-1.8 倍。随着淹水时间的增加, 土壤中水土比土壤氧化还原电位含量逐渐增加, 有机质增加, 铁铜和锌含量则先升后降低趋势; 到淹水处理的第 28 d, 据土壤旱改水土壤质地比原质地(砂)高而有机质含量低的特点, 该田土壤水土比为 1.5:1, 土壤 DTPA-Fe 含量是旱田水土比的 7%左右, 而 DTPA-Cu 和 DTPA-Zn 含量则分别比水轮作的 1.4-2.5 倍和 1.6-1.8 倍。随着淹水时间的增加, 土壤中水土比土壤氧化还原电位含量逐渐增加, 有机质增加, 铁铜和锌含量则先升后降低趋势; 到淹水处理的第 28 d, DTPA-Fe 含量显著高于水轮作处理的 2 倍, DTPA-Cu 和 DTPA-Zn 含量则分别比水轮作的 1.4-2.5 倍和 1.6-1.8 倍。随着淹水时间的增加, 土壤中水土比土壤氧化还原电位含量逐渐增加, 有机质增加, 铁铜和锌含量则先升后降低趋势; 到淹水处理的第 28 d, DTPA-Fe 含量显著高于水轮作处理的 2 倍, DTPA-Cu 和 DTPA-Zn 含量则分别比水轮作的 1.4-2.5 倍和 1.6-1.8 倍。Fe 不足及 Cu 过量可能是导致旱改水水稻幼苗生长缓慢、叶黄变黄的主要原因。旱田改水条件若不添加有机肥可降低土壤的 Fe 含量, 提高土壤 DTPA-Fe 含量及有效铁含量。添加有机肥并不能完全补充旱改水对水稻幼苗生长的抑制作用。关键词 旱改水 棉田 水稻 水淹 土壤氧化还原电位 铁 锰 锌中国分类号: S156.2, S344 文献标识码:A 文章编号:1716-3990(2015)05-0554-09* 国家自然科学基金项目(31401406)资助* 联系作者: 阎加力, 现主要从事为农田重金属污染及农产品安全。E-mail:xiaojial@hau.edu.cn通讯作者: 主要从事土壤与植物营养研究。E-mail:261342995@qq.com收稿日期:2014-09-09 接受日期:2015-03-03http://www.ecoagri.ac.cn
提取表格
result = ocr.process_image(image_path="论文.pdf",format_type="text",language="zh",custom_prompt="请提取其中的表格,并以markdown格式进行展示"
)
print(result)
Page 1:
很抱歉,您提供的图片内容是一篇学术论文的全文,但并未包含任何表格。如果您有其他关于这篇论文的问题,我会很乐意帮助您解答。
Page 2:
```markdown
| pH | 有机质含量 | 可供氮 | 可供磷 | 可供钾 | 全氮 | 全磷 | 全钾 | 总铁 | 总锰 | 总铜 | 总锌 | 总砷 | 品牌 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 水稻土 | Taihe field Soil | 7.51 | 18.63 | 70.26 | 11.4 | 0.04 | 0.17 | 391.44 | 28.67 | 74.76 | 24.54 | 81.24 | 10.54 |
| 棉籽土 | Catten field Soil | 7.40 | 11.39 | 88.25 | 11.63 | 0.55 | 0.56 | 588.13 | 34.54 | 81.24 | 16.54 |
Page 3:
```markdown
| Treatment | 生物量 (Mg·ha⁻¹) | 平均株高 (cm) | 叶长 (cm) | 叶宽 (cm) | 种子 SPAD |
| --- | --- | --- | --- | --- | --- |
| 原茬 | 34.74 ± 0.56 | 37.16 ± 1.04 | 15.31 ± 0.54 | 0.73 ± 0.01 | 36.70 ± 0.18 |
| P15 | 34.74 ± 0.56 | 37.16 ± 1.04 | 15.31 ± 0.54 | 0.73 ± 0.01 | 36.70 ± 0.18 |
| P15+ | 37.42 ± 0.54 | 38.15 ± 0.54 | 15.82 ± 0.54 | 0.76 ± 0.02 | 37.94 ± 0.18 |
| C15 | 37.42 ± 0.54 | 38.15 ± 0.54 | 15.82 ± 0.54 | 0.76 ± 0.02 | 37.94 ± 0.18 |
| C15+ | 38.24 ± 0.41 | 38.84 ± 0.17 | 16.25 ± 0.25 | 0.84 ± 0.05 | 41.05 ± 0.08 |
| P15 | 37.42 ± 0.54 | 38.15 ± 0.54 | 15.82 ± 0.54 | 0.76 ± 0.02 | 37.94 ± 0.18 |
| P15+ | 37.42 ± 0.54 | 38.15 ± 0.54 | 15.82 ± 0.54 | 0.76 ± 0.02 | 37.94 ± 0.18 |
| C15 | 37.42 ± 0.54 | 38.15 ± 0.54 | 15.82 ± 0.54 | 0.76 ± 0.02 | 37.94 ± 0.18 |
| C15+ | 38.24 ± 0.41 | 38.84 ± 0.17 | 16.25 ± 0.25 | 0.84 ± 0.05 | 41.05 ± 0.08 |
Page 4:
```markdown
| 处理 | 本试验一号 | 珍珠 | 本试验一号 | 珍珠 | 本试验一号 | 珍珠 |
| --- | --- | --- | --- | --- | --- |
| P | 22.15±0.68 | 27.15±0.12 | 3.14±0.35 | 3.18±0.26 | 27.70±0.26 |
| P+5 | 23.93±0.28 | 28.97±0.76 | 3.75±0.11 | 3.38±0.08 | 29.10±0.36 |
| C | 23.12±0.76 | 28.93±1.44 | 3.31±0.35 | 3.66±0.16 | 29.74±0.40 |
| C+5 | 20.75±1.20 | 22.41±1.61 | 3.35±0.89 | 3.47±0.10 | 27.24±0.66 |
提取图片
result = ocr.process_image(image_path="论文.pdf",format_type="text",language="zh",custom_prompt="请提取其中的图片"
)
print(result)
无法直接提取图片
Page 1:
很抱歉,我无法直接提供图片内容。不过,我可以帮助你解读图片中的文字信息。请将图片中的文字内容复制粘贴到对话框中,我会尽力帮助你提取和理解其中的信息。
Page 2:
很抱歉,您提供的图片内容是文字,而不是图片。如果您需要提取图片中的文字,可以使用OCR(光学字符识别)技术。如果您有具体的图片内容需要帮助,请上传图片,我会尽力帮助您。
Page 3:
很抱歉,我无法直接提供图片内容。不过,我可以帮助你解读图片中的文字信息。请将图片中的文字内容复制粘贴到对话框中,我会尽力帮助你理解图片中的内容。
Page 4:
很抱歉,我无法直接提供图片内容。您可以通过上传图片或描述图片内容来获取帮助。
Page 5:
很抱歉,我无法直接提供图片内容。不过,我可以帮助你解读图片中的文字信息。请将图片中的文字内容复制粘贴到对话框中,我会尽力帮助你理解图片中的内容。
Page 6:
很抱歉,我无法直接查看或提取图片内容。您提供的图片内容似乎是一篇学术论文的页面,包含图表和文字。如果您需要提取图片中的特定信息或数据,可以描述您需要提取的内容,我会尽力帮助您。例如,您可能需要提取图表中的数据点、特定段落的文字内容等。请告诉我您具体需要提取什么信息。
Page 7:
很抱歉,您提供的图片内容是一个文本文件,而不是一张图片。如果您需要提取图片中的内容,可以使用OCR(光学字符识别)技术。如果您需要提取图片中的内容,请上传图片,我会尽力帮助您。
Page 8:
很抱歉,您提供的图片内容是一篇学术论文的页面,包含大量的文字信息,但并未包含图片。如果您需要提取图片中的内容,可以使用OCR(光学字符识别)技术来识别图片中的文字。如果您需要提取图片中的内容,请提供图片,我会尽力帮助您。
Page 9:
很抱歉,您提供的图片内容是一篇中文的学术论文,包含大量的文字信息,而并非图片。如果您需要提取图片中的文字信息,可以使用OCR(光学字符识别)技术。如果您需要提取图片中的文字信息,请上传图片,我会尽力帮助您。
结论
利用多模态大模型,结合Ollama-OCR可以实现端到端PDF文档解析和问答,在一定程度上可以抛弃版面分析、表格识别等传统模型,节省开发成本。解析效果和输出的格式与大模型能力相关,因此可根据实际需求选择不同能力的模型。
随着大模型能力越来越强,以后大模型的发展趋势是会融合推理能力和多模态能力,这对于AI开发者来说可以减少开发的工作量,将主要精力集中在核心功能的开发上来。