pdf2zh 简明本地部署和api调用,以及离线部署总结
pdf2zh是一个开源的能够保留pdf文档格式的翻译项目,地址为:https://github.com/Byaidu/PDFMathTranslate
这里主要介绍如何在python环境下使用。
在创建好新的环境后,安装非常简单
pip install pdf2zh
支持网上大模型和本地大模型,这里以本地大模型为例,使用方法有两种,一种是cmd运行,一种是python调用:
1.cmd 运行:
pdf2zh example.pdf -s "ollama:qwen2:7b"
2.python调用
from pdf2zh import translate, translate_streamfrom pdf2zh.doclayout import OnnxModel
model=OnnxModel.load_available()params = {"model": model,"output":"data/",'lang_in': 'en','lang_out': 'zh','service': 'ollama:gemma3:1b','thread': 4,}(file_mono, file_dual) = translate(files=['data/example2.pdf'], **params)[0]
当前版本在安装后可能无法正常运行,尝试以下解决方法
1.安装vc_redist.x64.exe ;
2.更新pdf2zh;
如果想在离线电脑运行上述项目,除了保证大模型正常运行外,还需要拷贝C:\Users\{Name}\.cache下babeldoc和pdf2zh两个文件夹,放在本地相应文件夹下面,保证程序能够正常调用。