当前位置: 首页 > web >正文

【python】如何将文件夹及其子文件夹下的所有word文件汇总导出到一个excel文件里?

根据你的需求,这里提供一套完整的Python解决方案,支持递归遍历子文件夹、提取Word文档内容(段落+表格),并整合到Excel中。以下是代码实现及详细说明:

一个单元格一个word的全部内容


完整代码

# -*- coding: utf-8 -*-
import os
from docx import Document
import pandas as pd
from tqdm import tqdm  # 需安装:pip install tqdmdef extract_word_content(doc_path):"""提取Word文档中的段落和表格内容"""try:doc = Document(doc_path)content = []# 提取段落文本for para in doc.paragraphs:if para.text.strip():content.append(('paragraph', para.text))# 提取表格内容(按行合并)for table in doc.tables:for row in table.rows:row_text = ' | '.join([cell.text.strip() for cell in row.cells])content.append(('table_row', row_text))return '\n'.join([f"[{type}] {text}" for type, text in content])except Exception as e:return f"Error reading file: {str(e)}"def process_folder(root_folder):"""遍历文件夹并提取所有Word文档"""data = []# 遍历所有子文件夹for root, _, files in os.walk(root_folder):# 筛选Word文件(兼容.doc和.docx)word_files = [f for f in files if f.lower().endswith(('.doc', '.docx'))]# 显示进度条(需安装tqdm)for file in tqdm(word_files, desc=f"Processing {os.path.basename(root)}"):file_path = os.path.join(root, file)content = extract_word_content(file_path)data.append({"文件名": file,"完整路径": file_path,"文件内容": content})return pd.DataFrame(data)if __name__ == "__main__":# 配置参数folder_path = r"C:\Users\esensoft\Desktop\报名推荐"  # 修改为实际路径output_excel = "汇总结果.xlsx"# 执行处理df = process_folder(folder_path)# 导出Excel(自动处理格式)with pd.ExcelWriter(output_excel, engine='openpyxl') as writer:df.to_excel(writer, index=False, sheet_name='文档汇总')# 自动调整列宽for column in df.columns:max_len = max(df[column].astype(str).map(len).max(), len(column))writer.sheets['文档汇总'].column_dimensions[writer.sheets['文档汇总'].cell(row=
http://www.xdnf.cn/news/1052.html

相关文章:

  • 操作系统-用户级-内核级线程
  • 西门子地址表规划中,如WM200与WM201这样相邻地址冲突问题
  • 工厂模式:工厂方法模式 和 抽象工厂模式
  • VulnHub-DarkHole_1靶机渗透教程
  • Linux驱动模块双机调试详细步骤
  • Linux学习——UDP
  • PowerQuery逆透视将二维表转换为一维表
  • 【家政平台开发(67)】家政平台移动端性能优化:打造极致用户体验
  • Spring集合注入Bean
  • Oracle数据库学习之路-目录
  • PyTorch与自然语言处理:从零构建基于LSTM的词性标注器
  • Docker离线安装与配置指南
  • 安装 Conda 环境
  • Linux 一些常用的命令记录
  • pdf多文件合并
  • Elasticsearch性能优化实践
  • SQL简介
  • SystemV-消息队列与责任链模式
  • 神经网络的 “成长密码”:正向传播与反向传播深度解析(四)
  • 联邦元学习实现个性化物联网的框架
  • 【开关电源】关于GaN反激电源开关噪声
  • 微信小程序拖拽排序有效果图
  • C++学习之类与对象
  • Redis的数据持久化是怎么做的?
  • 【无人机】问题分析。查看电机转速时,四个电机转速不一致,QGC中检测到电机转速不均衡
  • webpack详细打包配置,包含性能优化、资源处理...
  • 简述大疆无人机对接
  • Python爬虫从入门到实战详细版教程
  • 【AI提示词】投资策略专家
  • 蓝耘平台介绍:算力赋能AI创新的智算云平台