当前位置：首页 > ds >正文

RAG：检索增强生成的范式演进、技术突破与前沿挑战

ds 2025/8/2 2:04:44

1 核心定义与原始论文

RAG（Retrieval-Augmented Generation）由Facebook AI Research团队于2020年提出，核心思想是将参数化记忆（预训练语言模型）与非参数化记忆（外部知识库检索）结合，解决大模型的知识静态性与幻觉问题。

原始论文信息：
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
论文地址：https://arxiv.org/abs/2005.11401
代码开源：https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag

该论文首次提出两种边缘化范式：

RAG-Sequence：整个输出序列基于同一组检索文档生成，公式为：
$pRAG-Seq(y∣x)≈∑z∈top-kpη(z∣x)pθ(y∣x,z)p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z)$
RAG-Token：每个token生成时可选择不同文档，灵活性更高：
$pRAG-Token(y∣x)≈∏iN∑z∈top-kpη(z∣x)pθ(yi∣x,z,y1:i−1)p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1})$

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.编辑距离：理论基础、算法演进与跨领域应用
19.ROUGE-WE：词向量化革新的文本生成评估框架
18.互信息：理论框架、跨学科应用与前沿进展
17.表征学习：机器认知世界的核心能力与前沿突破
16.CodeBLEU：面向代码合成的多维度自动评估指标——原理、演进与开源实践
15.Rouge：面向摘要自动评估的召回导向型指标——原理、演进与应用全景
14.RoPE：相对位置编码的旋转革命——原理、演进与大模型应用全景
13.KTO：基于行为经济学的大模型对齐新范式——原理、应用与性能突破
12.OpenRLHF：面向超大语言模型的高性能RLHF训练框架
11.LIMA：大语言模型对齐的“少即是多”革命——原理、实验与范式重构
10.Crome：因果鲁棒奖励建模框架——破解LLM对齐中的奖励黑客难题
9.CIRL：因果启发的表征学习框架——从域泛化到奖励分解的因果革命
8.PPO：强化学习中的近端策略优化——原理、演进与大规模应用实践
7.直接偏好优化（DPO）：原理、演进与大模型对齐新范式
6.LIMO：仅需817样本激活大模型数学推理能力，挑战“数据规模至上”传统范式
5.ReasonFlux：基于思维模板与分层强化学习的高效推理新范式
4.LiteCoT：难度感知的推理链压缩与高效蒸馏框架
3.自反馈机制（Self-Feedback）在大模型中的原理、演进与应用
2.复杂度优先：基于推理链复杂性的提示工程新范式
1.Self-Consistency：跨学科一致性的理论与AI推理的可靠性基石

2 技术架构与关键组件

RAG系统包含三阶段流水线：

检索器（Retriever）
- 使用双编码器架构（DPR模型），将查询与文档映射为稠密向量
- 通过最大内积搜索（MIPS） 从维基百科等知识库召回Top-K文档
生成器（Generator）
- 采用BART-large（400M参数）作为基础seq2seq模型
- 输入格式：原始查询与检索文档拼接为[query; document]
边缘化机制（Marginalization）
- 对多文档生成结果加权融合，抑制噪声干扰

表：RAG在开放域QA任务的性能对比（NaturalQuestions数据集）

模型	EM得分	F1得分
BART-large	44.5	57.2
T5-11B	47.2	59.1
RAG-Sequence	53.1	65.9
RAG-Token	54.8	67.2
数据来源：Lewis et al. (2020) NeurIPS论文

3 范式演进与技术增强

3.1 基础范式扩展

北京大学综述（Zhao et al., 2024）将RAG划分为四类范式：

查询式RAG：检索结果直接拼入输入提示（如REALM）
隐空间式RAG：检索内容以潜在表示融合（如FiD）
概率式RAG：在logit层融合检索分布（如kNN-LM）
推测式RAG：用检索替代部分生成以提升效率（如GPTCache）

3.2 自反思机制（Self-RAG）

华盛顿大学提出反射令牌（Reflection Tokens），实现动态决策：

Retrieve：判断是否需要检索
IsREL：评估文档相关性
IsSUP：验证生成是否受文档支持
IsUSE：评分输出有用性（1-5分）
实验显示其在事实准确性上超越ChatGPT 12.3%（FEVER数据集）。

3.3 多模态与结构化增强

GraphRAG（Microsoft, 2024）：
构建多模态知识图谱（MMKG），通过社区检测生成分层摘要，解决全局查询（如“数据集主题？”）的检索失效问题。
MMGraphRAG（Wan et al., 2025）：
融合场景图与文本KG，使用谱聚类实现跨模态实体链接，在DocBench数据集上提升长文本理解能力。

4 行业应用与评估标准

4.1 应用场景

领域	任务案例	代表性模型
文本	开放域问答、事实验证	FiD, SELF-RAG
代码	程序修复、SQL生成	SKCODER, RepoCoder
多模态	图像描述、视频问答	MMGraphRAG, ReMoDiffuse
科学	药物发现、生物医学推理	BioRAG
数据来源：Zhao et al. (2024) RAG综述

4.2 评估维度

关键指标包括：

忠实度（Faithfulness）：生成与检索内容的一致性（RAGAS指标）
噪声鲁棒性：从含噪文档中提取信息的能力
反事实鲁棒性：识别检索内容中的逻辑错误

5 局限与前沿方向

现存挑战

检索噪声：无关文档导致生成偏离（北大综述指出召回率-精度平衡难题）
上下文窗口限制：长文档导致信息丢失（GraphRAG通过社区摘要缓解）
跨模态对齐：图像/视频特征与文本嵌入空间不一致

未来方向

动态知识更新：实时索引修订机制（如RAGFoundry框架）
端到端优化：检索器与生成器的联合微调（如Intel RAGFoundry支持LoRA训练）
推理深度增强：
- DeepSieve框架（Guo et al., 2025）将LLM作为知识路由器，递归分解复杂查询
- Agentic RAG：通过多智能体协作实现检索-生成迭代优化