当前位置: 首页 > backend >正文

大模型Rag - 两大检索技术

一、稀疏检索:关键词匹配的经典代表

稀疏检索是一种基于关键词统计的传统检索方法。其基本思想是:通过词频和文档频率来衡量一个文档与查询的相关性。

核心原理

文档和查询都被表示为稀疏向量(如词袋模型),只有在词出现的位置才有非零值。
最常见的两种稀疏检索算法:

  • TF-IDF(Term Frequency-Inverse Document Frequency)
    由两个部分组成:
  • TF(词频):某个词在文档中出现的频率
    在这里插入图片描述
  • IDF(逆文档频率):某个词在所有文档中出现的稀有程度
    在这里插入图片描述
    df(t) 是包含词 𝑡 的文档数量

最终得分:TF-IDF(t,d)=TF(t,d)×IDF(t)

稀疏检索的局限性:

1. 不考虑词序和上下文语义
示例:

  • “男朋友送的礼物”
  • “送男朋友的礼物”
    在语义上完全不同,但关键词相同,稀疏检索会认为它们高度相似。

2. 对同义词不敏感

  • 例如“车”和“汽车”虽然含义一致,稀疏模型不会将它们归为同一语义。

二、稠密检索:理解语义的现代方法

稠密检索依赖于深度学习模型将文本转化为向量(embedding),这些向量可以捕捉语义信息、词序和上下文。

核心原理:
使用预训练模型(如 BERT、GTE、BGE)将文档和查询转化为稠密的向量表示(维度通常为768、1024等)

使用 向量相似度(如余弦相似度、点积)进行匹配和排序

优势:

  • 捕捉语义信息:能区分不同语义的句子
  • 支持同义词识别、上下文推理
  • 更适合处理自然语言表达丰富的用户提问

潜在问题:

  • 训练成本高:需要训练或微调 embedding 模型
  • 信息压缩:将高维文本语义压缩进一个定长向量,可能导致信息丢失
  • 可解释性差:不像关键词检索那样能清楚看到匹配逻辑

三、两者对比

项目稀疏检索(TF-IDF / BM25)稠密检索(Embedding)
原理基于关键词统计基于语义向量相似度
表达方式稀疏词袋向量稠密浮点向量
优势简单、高效、易解释理解语义、词序、上下文
缺点无法处理语义变化信息压缩、训练成本高
同义词识别
查询变化适应
http://www.xdnf.cn/news/506.html

相关文章:

  • 【滑动窗口】最⼤连续 1 的个数 III(medium)
  • 【java实现+4种变体完整例子】排序算法中【桶排序】的详细解析,包含基础实现、常见变体的完整代码示例,以及各变体的对比表格
  • 大数据平台简介
  • 掌握 MySQL:从命令行操作到数据类型与字段管理
  • 论文阅读:2025 arxiv AI Alignment: A Comprehensive Survey
  • Zookeeper的通知机制是什么?
  • 【更新完毕】2025妈妈杯C题 mathercup数学建模挑战赛C题数学建模思路代码文章教学:音频文件的高质量读写与去噪优化
  • xilinx fpga中pll与mmcm的区别
  • 【DT】USB通讯失败记录
  • MySQL 全局锁:全量备份数据要怎么操作?
  • 04_银行个贷系统下的技术原理解析
  • LLM多卡并行计算:Accelerate和DeepSpeed
  • 数据可视化(Matplotlib和pyecharts)
  • 【云馨AI-大模型】2025年4月第三周AI领域全景观察:硬件革命、生态博弈与国产化突围
  • 【unity游戏开发入门到精通——UGUI】RectTransform矩形变换组件
  • 保生产 促安全 迎国庆
  • 平均池化(Average Pooling)
  • Ai Agent 在生活领域的深度应用与使用指南
  • 第七周作业
  • day29 学习笔记
  • Jenkins设置中文显示
  • Mermaid 是什么,为什么适合AI模型和markdown
  • webgl入门实例-向量在图形学中的核心作用
  • 【2025】Datawhale AI春训营-蛋白质预测(AI+生命科学)-Task2笔记
  • Cribl 优化EC2 ip-host-region 数据
  • 20-算法打卡-哈希表-赎金信-leetcode(383)-第二十天
  • Java反射
  • 废物九重境弱者学JS第十四天--构造函数以及常用的方法
  • VBA 调用 dll 优化执行效率
  • YOLO拓展-锚框(anchor box)详解