当前位置: 首页 > ds >正文

RAG:检索增强生成的范式演进、技术突破与前沿挑战

1 核心定义与原始论文

RAG(Retrieval-Augmented Generation)由Facebook AI Research团队于2020年提出,核心思想是将参数化记忆(预训练语言模型)与非参数化记忆(外部知识库检索)结合,解决大模型的知识静态性与幻觉问题。

原始论文信息
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
论文地址:https://arxiv.org/abs/2005.11401
代码开源:https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag

该论文首次提出两种边缘化范式

  • RAG-Sequence:整个输出序列基于同一组检索文档生成,公式为:
    pRAG-Seq(y∣x)≈∑z∈top-kpη(z∣x)pθ(y∣x,z)p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z)pRAG-Seq(yx)ztop-kpη(zx)pθ(yx,z)
  • RAG-Token:每个token生成时可选择不同文档,灵活性更高:
    pRAG-Token(y∣x)≈∏iN∑z∈top-kpη(z∣x)pθ(yi∣x,z,y1:i−1)p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1})pRAG-Token(yx)iNztop-kpη(zx)pθ(yix,z,y1:i1)

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.编辑距离:理论基础、算法演进与跨领域应用
  • 19.ROUGE-WE:词向量化革新的文本生成评估框架
  • 18.互信息:理论框架、跨学科应用与前沿进展
  • 17.表征学习:机器认知世界的核心能力与前沿突破
  • 16.CodeBLEU:面向代码合成的多维度自动评估指标——原理、演进与开源实践
  • 15.Rouge:面向摘要自动评估的召回导向型指标——原理、演进与应用全景
  • 14.RoPE:相对位置编码的旋转革命——原理、演进与大模型应用全景
  • 13.KTO:基于行为经济学的大模型对齐新范式——原理、应用与性能突破
  • 12.OpenRLHF:面向超大语言模型的高性能RLHF训练框架
  • 11.LIMA:大语言模型对齐的“少即是多”革命——原理、实验与范式重构
  • 10.Crome:因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题
  • 9.CIRL:因果启发的表征学习框架——从域泛化到奖励分解的因果革命
  • 8.PPO:强化学习中的近端策略优化——原理、演进与大规模应用实践
  • 7.直接偏好优化(DPO):原理、演进与大模型对齐新范式
  • 6.LIMO:仅需817样本激活大模型数学推理能力,挑战“数据规模至上”传统范式
  • 5.ReasonFlux:基于思维模板与分层强化学习的高效推理新范式
  • 4.LiteCoT:难度感知的推理链压缩与高效蒸馏框架
  • 3.自反馈机制(Self-Feedback)在大模型中的原理、演进与应用
  • 2.复杂度优先:基于推理链复杂性的提示工程新范式
  • 1.Self-Consistency:跨学科一致性的理论与AI推理的可靠性基石
2 技术架构与关键组件

RAG系统包含三阶段流水线:

  1. 检索器(Retriever)
    • 使用双编码器架构(DPR模型),将查询与文档映射为稠密向量
    • 通过最大内积搜索(MIPS) 从维基百科等知识库召回Top-K文档
  2. 生成器(Generator)
    • 采用BART-large(400M参数)作为基础seq2seq模型
    • 输入格式:原始查询与检索文档拼接为[query; document]
  3. 边缘化机制(Marginalization)
    • 对多文档生成结果加权融合,抑制噪声干扰

表:RAG在开放域QA任务的性能对比(NaturalQuestions数据集)

模型EM得分F1得分
BART-large44.557.2
T5-11B47.259.1
RAG-Sequence53.165.9
RAG-Token54.867.2
数据来源:Lewis et al. (2020) NeurIPS论文
3 范式演进与技术增强
3.1 基础范式扩展

北京大学综述(Zhao et al., 2024)将RAG划分为四类范式:

  • 查询式RAG:检索结果直接拼入输入提示(如REALM)
  • 隐空间式RAG:检索内容以潜在表示融合(如FiD)
  • 概率式RAG:在logit层融合检索分布(如kNN-LM)
  • 推测式RAG:用检索替代部分生成以提升效率(如GPTCache)
3.2 自反思机制(Self-RAG)

华盛顿大学提出反射令牌(Reflection Tokens),实现动态决策:

  1. Retrieve:判断是否需要检索
  2. IsREL:评估文档相关性
  3. IsSUP:验证生成是否受文档支持
  4. IsUSE:评分输出有用性(1-5分)
    实验显示其在事实准确性上超越ChatGPT 12.3%(FEVER数据集)。
3.3 多模态与结构化增强
  • GraphRAG(Microsoft, 2024):
    构建多模态知识图谱(MMKG),通过社区检测生成分层摘要,解决全局查询(如“数据集主题?”)的检索失效问题。
  • MMGraphRAG(Wan et al., 2025):
    融合场景图与文本KG,使用谱聚类实现跨模态实体链接,在DocBench数据集上提升长文本理解能力。
4 行业应用与评估标准
4.1 应用场景
领域任务案例代表性模型
文本开放域问答、事实验证FiD, SELF-RAG
代码程序修复、SQL生成SKCODER, RepoCoder
多模态图像描述、视频问答MMGraphRAG, ReMoDiffuse
科学药物发现、生物医学推理BioRAG
数据来源:Zhao et al. (2024) RAG综述
4.2 评估维度

关键指标包括:

  • 忠实度(Faithfulness):生成与检索内容的一致性(RAGAS指标)
  • 噪声鲁棒性:从含噪文档中提取信息的能力
  • 反事实鲁棒性:识别检索内容中的逻辑错误
5 局限与前沿方向
现存挑战
  • 检索噪声:无关文档导致生成偏离(北大综述指出召回率-精度平衡难题)
  • 上下文窗口限制:长文档导致信息丢失(GraphRAG通过社区摘要缓解)
  • 跨模态对齐:图像/视频特征与文本嵌入空间不一致
未来方向
  1. 动态知识更新:实时索引修订机制(如RAGFoundry框架)
  2. 端到端优化:检索器与生成器的联合微调(如Intel RAGFoundry支持LoRA训练)
  3. 推理深度增强
    • DeepSieve框架(Guo et al., 2025)将LLM作为知识路由器,递归分解复杂查询
    • Agentic RAG:通过多智能体协作实现检索-生成迭代优化

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.xdnf.cn/news/16775.html

相关文章:

  • pytorch入门2:利用pytorch进行概率预测
  • 智慧城市SaaS平台|市政公用管理系统
  • LeetCode Hot 100 搜索旋转排序数组
  • Java项目:基于SSM框架实现的济南旅游网站管理系统【ssm+B/S架构+源码+数据库+毕业论文+远程部署】
  • Linux系统指令之 —— passwd
  • 【maven】仓库配置
  • 基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(二)
  • 15.10 单机8卡到千卡集群!DeepSpeed实战调参手册:A100训练效率翻倍,百万成本优化实录
  • 【C++详解】深入解析多态 虚函数、虚函数重写、纯虚函数和抽象类、多态原理、重载/重写/隐藏的对⽐
  • composer 常用命令
  • Unity_XR控制手部动画
  • NVIDIA Isaac平台推动医疗AI机器人发展研究
  • C++:STL中list的使用和模拟实现
  • 常见的cms框架的webshell方法
  • JavaScript和小程序写水印的方法示例
  • 谈谈毕业工作一年后的变化
  • 【C语言】指针深度剖析(一)
  • 集成电路学习:什么是Wi-Fi无线保真度
  • Java优雅使用Spring Boot+MQTT推送与订阅
  • 使用LangChain构建法庭预定智能体:结合vLLM部署的Qwen3-32B模型
  • Accessibility Insights for Windows 使用教程
  • dubbo应用之3.0新特性(响应式编程)(2)
  • JVM 崩溃(Fatal Error)解决方法
  • C++与C#实战:FFmpeg屏幕录制开发指南
  • Rust基础-part8-模式匹配、常见集合
  • 前端学习日记(十五)
  • 利用对称算法及非对称算法实现安全启动
  • 《剑指offer》-算法篇-位运算
  • 【术语扫盲】MCU与MPU
  • [CSP-J 2022] 逻辑表达式