当前位置: 首页 > news >正文

LLM+RAG:文本分块处理策略

文章目录

        • 文本分块的意义
        • 常见的文本分块策略
          • 2.1 固定大小文本切块 (递归方法)
          • 2.2 基于 `NLTK 、spaCy` 的文本切块
          • 在 LangChain 中的应用
          • 扩展:基于 `spaCy` 的文本切块
          • 2.3 特殊格式文本切块(HTML、Markdown)
          • LangChain 提供的特殊文本切块方法
            • 4.3.5 自定义扩展

文本分块的意义

大多数常用的数据分块方法(chunking)都是基于规则的,采用 fixed chunk size(将数据或文本按照固定的大小进行数据分块)或 overlap of adjacent chunks(让相邻的数据块具有重叠内容,确保信息不会丢失) 等技术。对于具有多个层级结构的文档,可以使用 Langchain 提供的 RecursiveCharacterTextSplitter,这种方法允许将文档按照不同的层级进行分割。

然而,在实际应用中,由于预定义的规则(比如数据分块大小(chunk size)或重叠部分的大小(size of overlapping parts))过于死板,基于规则的数据分块方法很容易导致检索到的上下文(retrieval contexts)不完整或包含 noise(指不需要的、干扰性的信息或数据,可能会对分析或处理造成干扰或误导的数据。) 的数据块过大等问题。

常见的文本分块策略

RA

http://www.xdnf.cn/news/667945.html

相关文章:

  • Apache DolphinScheduler存储系统详解| AI生成技术文档系列
  • Vue3进阶教程:1.初次了解vue
  • Mobaxterm解锁Docker
  • Docker Desktop for Windows 系统设置说明文档
  • DBCP连接池的使用方法和源码分析
  • PCB布局/走线
  • 2025年上半年第2批信息系统项目管理师论文真题解析与范文
  • 深入理解Java中的BigDecimal:高精度计算的核心工具
  • 第二批考更有利?软考高项两个批次考试难度对比分析!
  • 银河麒麟V10×R²AIN SUITE:用AI重构安全,以国产化生态定义智能未来
  • Ansible 配置Playbook文件格式、关键字和语法详解
  • 每日Prompt:古花卷
  • 探究Azure devops 流水线缓存
  • 详解MYSQL索引失效问题排查
  • 关于 Web 安全:6. 常见 CMS 开源系统风险点
  • 利用 `ngx_http_xslt_module` 实现 NGINX 的 XML → HTML 转换
  • 深度学习常用概念详解:从生活理解到技术原理
  • 新电脑配置五 jdk8,maven,idea,vscode
  • 单片机(MCU)的 IO 口静电、浪涌、电压异常等保护
  • OpenEuler-DNS多域服务器搭建
  • 基于 Node.js 的 Express 服务是什么?
  • div或button一些好看实用的 CSS 样式示例
  • Linux 下 C 语言实现工厂模式
  • 卓力达蚀刻工艺:精密制造的跨行业赋能者
  • day 33 python打卡
  • 【LeetCode 热题 100】打家劫舍 / 零钱兑换 / 单词拆分 / 乘积最大子数组 / 最长有效括号
  • DAY38打卡
  • Python打卡第38天
  • 零基础远程连接课题组Linux服务器,安装anaconda,配置python环境(换源),在服务器上运行python代码【2/3 适合小白,步骤详细!!!】
  • K8S Pod调度方法实例