当前位置: 首页 > ds >正文

Python实用工具:pdf转doc

         该工具只能使用在英文目录下,且无法转换出图片,以及文本特殊格式。

下载依赖项

pip install PyPDF2

 升级依赖项

pip install PyPDF2 --upgrade

 查看库版本

python -c "import PyPDF2; print(PyPDF2.__version__)"

 下载第二个依赖项

pip install python-docx

 给权限

pip install python-docx --user

 验证

python -c "from docx import Document; print('python-docx 安装成功')"

 

# -*- coding: utf-8 -*-
# pdf_to_word_pypdf2_python_docx.py
import PyPDF2
from docx import Documentdef pdf_to_word_pypdf2_python_docx(pdf_path, word_path):with open(pdf_path, 'rb') as pdf_file:pdf_reader = PyPDF2.PdfReader(pdf_file)  # 更新为PdfReaderdocument = Document()for page in pdf_reader.pages:  # 使用pages属性直接遍历text = page.extract_text()  # 更新方法名为extract_text()document.add_paragraph(text)document.save(word_path)# 使用示例
pdf_to_word_pypdf2_python_docx('123456.pdf', 'output.docx')
http://www.xdnf.cn/news/5520.html

相关文章:

  • flutter 项目工程文件夹组织结构
  • 新手在使用宝塔Linux部署前后端分离项目时可能会出现的问题以及解决方案
  • Linux-TCP套接字编程简易实践:实现EchoServer与远程命令执行及自定义协议(反)序列化
  • 【JavaWeb+后端常用部件】
  • Day 5:Warp高级定制与自动化
  • 足式机器人的全身模型预测控制
  • 常用设计模式
  • 一种混沌驱动的后门攻击检测指标
  • GC垃圾回收
  • vector的大小
  • Java开发经验——阿里巴巴编码规范经验总结2
  • (2025)图文解锁RAG从原理到代码实操,代码保证可运行
  • 自学嵌入式 day 17- c语言-第11章 结构体与共用体 第12章 位运算
  • 深入浅出之STL源码分析5_类模版实例化与特化
  • RAG与语义搜索:让大模型成为测试工程师的智能助手
  • DVWA靶场Cryptography模块medium不看原码做法
  • Python时间模块
  • MySQL 从入门到精通(二):DML 数据操作与 DQL 数据查询详解
  • Python项目75:PyInstaller+Tkinter+subprocess打包工具1.0(安排 !!)
  • 阿里云OSS-服务端加签直传说明/示例(SpringBoot)
  • Python数据分析案例75——基于图神经网络的交通路段流量时间序列预测
  • navicat 如何导出数据库表 的这些信息 字段名 类型 描述
  • fota移植包合入后编译验证提示:File verification failed
  • Java线程池深度解析:从使用到原理全面掌握
  • KTOR for windows:無文件落地HTTP服务扫描工具
  • 【Bootstrap V4系列】学习入门教程之 组件-表单(Forms)高级用法(二)
  • 教育行业的 RAG 落地:个性化学习助手设计
  • 【Linux基础】网络相关命令
  • Client 和 Server 的关系理解
  • Yocto项目实战经验总结:从入门到高级的全面概览