当前位置: 首页 > java >正文

【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】

安装环境

conda create -n maker-pdf python=3.12
conda activate marker-pdf
pip install modelscope
pip install marker-pdf -U

下载模型

from modelscope import snapshot_downloadmodel_root = "models"
snapshot_download("Lixiang/marker-pdf", local_dir="models")

开始运行

from marker.converters.pdf import PdfConverter
from marker.models import create_model_dict
from marker.output import text_from_rendered
from surya.settings import settings## 权重地址,很大没GPU的话会很慢
model_root = "models"
settings.MODEL_CACHE_DIR = model_root
for chectpoint in ["LAYOUT_MODEL_CHECKPOINT","DETECTOR_MODEL_CHECKPOINT","OCR_ERROR_MODEL_CHECKPOINT","TABLE_REC_MODEL_CHECKPOINT","RECOGNITION_MODEL_CHECKPOINT",
]:value = getattr(settings, chectpoint)if "s3://" in value:value = value.replace("s3://", "/")setattr(settings, chectpoint, model_root + value)converter = PdfConverter(artifact_dict=create_model_dict(),
)
rendered = converter("test.pdf")
# text = rendered.markdown
text, _, images = text_from_rendered(rendered)
print(text)
http://www.xdnf.cn/news/9947.html

相关文章:

  • 云原生时代 Kafka 深度实践:03进阶特性与最佳实践
  • 【题解-洛谷】P7795 [COCI 2014/2015 #7] PROSJEK
  • Hive在实际应用中,如何选择合适的JOIN优化策略?
  • 探索三维螺旋线的几何奥秘:曲率与挠率的计算与可视化
  • python学习day33
  • SpringBoot WebMvcConfigurer使用Jackson统一序列化格式化输出
  • DDP与FSDP:分布式训练技术全解析
  • python常用库-pandas、Hugging Face的datasets库(大模型之JSONL(JSON Lines))
  • EasyRTC嵌入式音视频通信SDK助力1v1实时音视频通话全场景应用
  • 图解gpt之Transformer架构与设计原理
  • ONNX模型的动态和静态量化
  • 2024 CKA模拟系统制作 | Step-By-Step | 17、题目搭建-排查故障节点
  • 因泰立科技:镭眸T51激光雷达,打造智能门控新生态
  • 立控信息智能装备柜:科技赋能军队装备管理现代化
  • WindowServer2022下docker方式安装dify步骤
  • 大厂前端研发岗位设计的30道Webpack面试题及解析
  • CAD多边形密堆积2D插件
  • SpringBoot+Vue+微信小程序校园自助打印系统
  • Spring Boot 基础知识全面解析:快速构建企业级应用的核心指南
  • 用Git管理你的服务器配置文件与自动化脚本:版本控制、变更追溯、团队协作与安全回滚的运维之道
  • 服务器Docker容器创建与VScode远程连接SSH使用
  • quasar electron mode如何打包无边框桌面应用程序
  • 从零到一:我的技术博客导航(持续更新)
  • 基于开源链动2+1模式AI智能名片S2B2C商城小程序的企业组织生态化重构研究
  • 展会聚焦丨漫途科技亮相2025西北水务博览会!
  • AI生态警报:MCP协议风险与应对指南(中)——MCP Server运行时安全​​
  • 循环神经网络(RNN)全面教程:从原理到实践
  • 神经网络-Day40
  • 目标检测学习
  • Day 40