当前位置: 首页 > ai >正文

Office文件内容提取 | 获取Word文件内容 |Javascript提取PDF文字内容 |PPT文档文字内容提取

关于Office系列文件文字内容的提取

本文主要通过接口的方式获取Office文件和PDF、OFD文件的文字内容。适用于需要获取Word、OFD、PDF、PPT等文件内容的提取实现。例如在线文字统计以及论文文字内容的提取。

USDOC文档在线处理

一、提取Word及WPS文档的文字内容。

支持以下文件格式:

文档类型文件格式支持与否
word.doc、.docx、.wps、.rtf
ppt.ppt、.pptx、.pps
pdf.pdf
ofd.ofd
excel.xls、.xlsx、.et

请求地址:https://vw.usdoc.cn/
请求方式:GET
请求参数:

字段名称字段类型必填参数说明
srcstring文件地址,即需要提取的文档地址。如:https://usdoc.cn/vw/文件模板.docx
words.stringwords=all 提取全部内容 words=pag 以分页的形式对内容分页提取

公共响应参数:

字段名称类型描述
codenumbecode请求码,200表示正常
wordsstring错误描述信息,用来帮助理解和解决发生的错误。
dataobject响应参数

响应参数:

字段名称字段类型描述示例
fileNamestring文件名称文件模板.docx
fileSizenumbe文件大小,单位为字节words=all 提取全部内容 words=pag 以分页的形式对内容分页提取
pageCountnumbe文档页数,文件有多少页内容3
contentstring文档内容关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:…(usdoc在线预览)

代码示例一:

提取全部内容,不分页返回

//请求接口地址:https://vw.usdoc.cn/
//参数: words=all
//完整的转换地址如下,可以将如下地址放在浏览器请求https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx

https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx

{"code": 200,"msg": "success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["关于国庆节放假安排的通知(在线预览)\r\r主送机关全称:......(usdoc在线预览)\r文件正文。其致一也。后之览者,亦将有感于斯文。"]}
}

代码示例二:

以分页的方式提取全部内容,分页返回

//请求接口地址:https://vw.usdoc.cn/
//参数: words=pag
//完整的转换地址如下,可以将如下地址放在浏览器请求https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx

https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx

{"code": 200,"msg": "Success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["关于国庆节放假安排的通知(usdoc在线预览)文件正文。...10月1日至7日放假调休,......三级标题(空两格)\r(1)四级标题(空两格)","当否,请批示。\r附件:1、\r          2、\r\r\rusdoc文档在线预览服务\r2022年10月10日\r\r\r\r\r\r(联系人:×××,联系电话:××××)","兰亭集序\r\r永和九年,岁在癸丑,暮春之初,会于会稽山阴之兰亭,修禊......,亦将有感于斯文"]}
}

Office在线预览示例

http://www.xdnf.cn/news/851.html

相关文章:

  • 边缘计算场景下的GPU虚拟化实践(基于vGPU的QoS保障与算力隔离方案)
  • ‌信号调制与解调技术基础解析
  • Docker 集成KingBase
  • 瑞吉外卖-分页功能开发中的两个问题
  • 【分布式理论17】分布式调度3:分布式架构-从中央式调度到共享状态调度
  • 8.1 线性变换的思想
  • 基于遗传算法的智能组卷系统设计与实现(springboot+ssm+React+mysql)含万字详细文档
  • Elasticsearch中的_source字段讲解
  • hadoop与spark的区别和联系
  • 大模型面经 | 春招、秋招算法面试常考八股文附答案(三)
  • 主流大模型(如OpenAI、阿里云通义千问、Anthropic、Hugging Face等)调用不同API的参数说明及对比总结
  • 53、Spring Boot 详细讲义(十)(Spring Boot 高级主题)
  • Python自动化selenium-一直卡着不打开浏览器怎么办?
  • 2025.4.21总结
  • 【架构】-- StarRocks 和 Doris 介绍与选型建议
  • [密码学实战]密评考试训练系统v1.0程序及密评参考题库(获取路径在文末)
  • 8086微机原理与接口技术复习(1)存储器(2)接口
  • 爬虫学习——LinkEXtractor提取链接与Exporter导出数据
  • 强化学习笔记(三)——表格型方法(蒙特卡洛、时序差分)
  • P3959 [NOIP 2017 提高组] 宝藏
  • 图形编辑器基于Paper.js教程27:对图像描摹的功能实现,以及参数调整
  • 一款支持多线程的批量任务均衡器
  • Craft 是什么:腾讯 Cloud Studio 中的 CodeBuddy 提供了 Craft 功能
  • 阻塞队列-ArrayBlockingQueue
  • 【Linux专栏】zip 多个文件不带路径
  • 入选AAAI 2025,浙江大学提出多对一回归模型M2OST,利用数字病理图像精准预测基因表达
  • C语言高频面试题——指针数组和数组指针
  • Spark-SQL核心编程
  • day33和day34图像处理OpenCV
  • MySQL数据库 - InnoDB引擎