当前位置: 首页 > backend >正文

rag增强检索-基于关键词检索的混合检索模式

1. 为什么在 RAG 里要用关键词检索?

  • 向量检索(embedding-based retrieval)是找语义相近的内容,但有时候不够准确。
  • 比如用户问了具体人名、产品型号、年份,这类关键词强指向性的信息,用向量检索可能匹配不到最相关内容。
  • **关键词检索(keyword-based retrieval)**可以直接通过词匹配(如倒排索引、BM25)拿到精准结果。

所以,在 RAG 里常常会混合用
→ 先关键词召回,再向量检索排序,或者两者结合。

2. 关键词检索的基本实现方式

主流有几种方法:

(1)简单倒排索引
  • 建一个词到文档ID的倒排表(Elasticsearch、Lucene 就是干这个的)
  • 用户query分词后,直接去倒排表里查有哪些文档包含这些词
  • 计算一个得分,比如常见的 BM25

例子:

query: "Apache Flink 流式计算"
分词: 
http://www.xdnf.cn/news/2625.html

相关文章:

  • vue响应式原理——vue2和vue3的响应式实现区别
  • 非结构化数据解析
  • wsl(8) -- 图形界面
  • 封装el-autocomplete,接口调用
  • Ubuntu安装brew
  • OSI 模型(开放系统互联模型)
  • FEKO许可安装
  • CCF推荐学术会议-C(网络与信息安全):SAC 2025
  • Python学习之路(六)-图像识别
  • 数字化转型的未来趋势:从工具到生态,聚焦生态合作、绿色转型与全球化布局
  • Vue3 Element Plus el-tabs数据刷新方法
  • 更快的图像局部修改与可控生成:Flex.2-preview
  • 航顺 芯片 开发记录 (一) 2025年4月27日19:23:32
  • 【博客系统】博客系统第二弹:实现博客列表接口
  • T检验、F检验及样本容量计算学习总结
  • 通过示例学习:连续 XOR
  • SpringBoot驾校报名小程序实现
  • 详细PostMan的安装和基本使用方法
  • 【SF】在 Android 显示系统中,图层合成方式 Device 和 Client 的区别
  • 文章记单词 | 第50篇(六级)
  • Zookeeper HA集群搭建
  • 昂瑞微蓝牙OM6621系列对比选型指南
  • 《代码整洁之道》第8章 边界 - 笔记
  • NCCL 通信与调试
  • Grok发布了Grok Studio 和 Workspaces两个强大的功能。该如何使用?如何使用Grok3 API?
  • 深度学习与SLAM特征提取融合:技术突破与应用前景
  • 深入解读:2025 数字化转型管理 参考架构
  • 视频HLS分片与关键帧优化深度解析
  • 2025 网络安全技术深水区探索:从 “攻防对抗” 到 “数字韧性” 的范式跃迁
  • VRRP与BFD在冗余设计中的核心区别:从“备用网关”到“毫秒级故障检测”