当前位置: 首页 > backend >正文

非结构化数据解析

       针对日常生活中常见的文本中出现图片,表格,公式等非结构性数据,在构建rag系统时对其有效信息提取与最后结果息息相关。下面来总结一下目前常见非结构性数据提取方法:

(1)分块识别

下面针对融合多种非结构性数据pdf文本进行识别

import os
import pdfplumber
import fitz  # PyMuPDF 提取图像
from openpyxl import Workbookclass PDFProcessor:def __init__(self, pdf_path,save_path=None):self.pdf_path = pdf_pathself.save_path = save_pathself.extract_pdf()def extract_pdf(self):# self.extract_text()self.extract_images()# self.extract_tables()# self.extract_table2txt()def extract_text(self):  with pdfplumber.open(self.pdf_path) as pdf:      text = ""for page in pdf.pages:
http://www.xdnf.cn/news/2623.html

相关文章:

  • wsl(8) -- 图形界面
  • 封装el-autocomplete,接口调用
  • Ubuntu安装brew
  • OSI 模型(开放系统互联模型)
  • FEKO许可安装
  • CCF推荐学术会议-C(网络与信息安全):SAC 2025
  • Python学习之路(六)-图像识别
  • 数字化转型的未来趋势:从工具到生态,聚焦生态合作、绿色转型与全球化布局
  • Vue3 Element Plus el-tabs数据刷新方法
  • 更快的图像局部修改与可控生成:Flex.2-preview
  • 航顺 芯片 开发记录 (一) 2025年4月27日19:23:32
  • 【博客系统】博客系统第二弹:实现博客列表接口
  • T检验、F检验及样本容量计算学习总结
  • 通过示例学习:连续 XOR
  • SpringBoot驾校报名小程序实现
  • 详细PostMan的安装和基本使用方法
  • 【SF】在 Android 显示系统中,图层合成方式 Device 和 Client 的区别
  • 文章记单词 | 第50篇(六级)
  • Zookeeper HA集群搭建
  • 昂瑞微蓝牙OM6621系列对比选型指南
  • 《代码整洁之道》第8章 边界 - 笔记
  • NCCL 通信与调试
  • Grok发布了Grok Studio 和 Workspaces两个强大的功能。该如何使用?如何使用Grok3 API?
  • 深度学习与SLAM特征提取融合:技术突破与应用前景
  • 深入解读:2025 数字化转型管理 参考架构
  • 视频HLS分片与关键帧优化深度解析
  • 2025 网络安全技术深水区探索:从 “攻防对抗” 到 “数字韧性” 的范式跃迁
  • VRRP与BFD在冗余设计中的核心区别:从“备用网关”到“毫秒级故障检测”
  • JavaScript中主动抛出错误的方法
  • 【java】lambda表达式总结