当前位置：首页 > news >正文

【RAG召回优化】rag召回阶段方法探讨

news 2025/6/6 14:03:16

提升检索增强生成（RAG）系统召回率：技术、权衡与实践洞察

I. 引言

RAG 效能中召回率的关键作用

检索增强生成（Retrieval-Augmented Generation, RAG）通过整合外部知识库信息来增强大型语言模型（Large Language Models, LLMs）的能力，已成为解决 LLM 固有局限性（如知识陈旧、领域信息不足和幻觉生成）的关键技术范式 1。RAG 系统的核心在于其两阶段过程：首先是信息检索（Retrieval），然后是基于检索结果的文本生成（Generation）。在此过程中，“召回率”（Recall）——即检索组件从知识库中成功找出所有与用户查询相关的文档或文本片段（chunks）的能力——扮演着至关重要的角色 9。

召回率之所以基础且关键，是因为 RAG 系统的最终输出质量高度依赖于检索阶段所提供信息的完整性和相关性 1。如果相关的知识片段未能被成功召回（即召回率低），那么无论生成模型（LLM）本身多么强大，它也无法基于不完整或缺失的信息生成准确、全面的答案。这表明，召回环节往往是 RAG 流水线中的第一个潜在瓶颈。若未能有效解决召回问题，后续对生成器或重排序（reranking）等环节的优化效果将大打折扣，因为它们处理的是已经“先天不足”的信息输入。因此，最大化召回率是构建高性能 RAG 系统的首要任务之一。

最大化召回率面临的挑战

尽管召回率至关重要，但在实际应用中实现高召回率面临诸多挑战：

语义鸿沟（Semantic Gap）：用户提问的措辞、术语可能与知识库文档中的表述存在差异。简单的关键词匹配或基础的语义相似度计算往往难以捕捉这种差异，导致相关文档被遗漏 13。
数据异构性（Data Heterogeneity）：企业知识库或外部数据源通常包含多种格式（如文本、表格、图片）和结构的数据，这给建立统一高效的检索机制带来了复杂性 6。
上下文碎片化（Context Fragmentation）：不恰当的文档切分（chunking）策略可能将一个完整的语义单元或相关的上下文信息分割到不同的文本块中。检索时如果只召回了部分碎片，将导致信息不完整，影响最终答案的生成质量 5。（切片可能会有遗漏，先是识别，然后词向量（模糊）+bm25（准确），平台可选）
查询模糊性与复杂性（Ambiguity and Complexity）：用户的查询本身可能存在歧义，或者问题需要综合来自多个文档源的信息（即多跳查询）才能回答。这对简单的、单次检索的方法构成了严峻挑战 8。

本报告技术概览

为应对上述挑战并有效提升 RAG 系统的召回率，业界已发展出多种技术和策略。本报告将系统梳理并深入探讨这些旨在优化召回性能的关键技术，主要涵盖以下几个方面：文档切分与索引优化、查询理解与范围增强、高级检索策略、嵌入模型优化，以及召回率与精确率的权衡。报告将结合具体技术细节、实践案例和相关研究发现，为构建和优化 RAG 系统提供全面的技术洞察。

II. 基础检索优化：文档切分与索引构建

RAG 系统的基础在于如何有效地表示和组织知识库中的信息，以便在查询时能够快速、准确地找到相关内容。文档切分（Chunking）和索引构建（Indexing）是这一过程中的两个核心环节，对后续的检索召回率有着直接且深远的影响。

优化文档切分（Chunking）策略（零散、大块，切片的时候也要问题类型来，1-生成问题-各个专业同事自己来描述一下常见问题，2-small2big-切得更准才能答的更准，3-lightrag-文档形成知识图谱，以便解决文档巨大的问题，4-opensearchr1-agentrag-owl）

原始文档通常需要被分割成较小的文本块（chunks），主要原因是为了适应嵌入模型和 LLM 的上下文窗口限制，同时也可能通过更细粒度的检索单元来提升特定类型查询的检索精度 18。然而，切分方式直接影响检索效果。

固定大小切分（Fixed-Size Chunking）：这是最基础的方法，按预设的字符数或 token 数量分割文本。这种方法的优点是简单易行，但缺点也很明显。切分块过小可能导致丢失重要的上下文信息，使得单个块不足以回答查询；切分块过大则可能引入过多无关噪声，干扰后续 LLM 的理解，或者超出模型处理长度的限制 13。
内容感知/结构感知切分（Content-Aware/Structure-Aware Chunking）：为了克服固定大小切分的局限性，可以根据文档的内在结构（如段落、章节、列表）或语义内容进行切分 13。例如，可以按段落分割，或者使用自然语言处理技术识别语义边界。对于特定格式的文档（如法律文书），利用其固有的分隔符（如章节号 "§"）进行切分，已被证明可以取得优于标准方法的效果。这种方法旨在保持切分后文本块的语义完整性。
重叠切分（Overlapping Chunks）：为了减少因切分导致上下文在块边界处丢失的问题，可以在相邻的块之间设置一定的重叠区域 13。这样，即使一个关键信息点位于块的边缘，它也会出现在相邻的块中，增加了被检索到的机会。
平衡召回与上下文的高级策略：针对召回精度和生成所需上下文之间的平衡问题，出现了一些更高级的切分与检索联动策略：
- 句子窗口检索（Sentence Window Retrieval）：这种策略首先将文档切分成单个句子，并为每个句子生成嵌入向量用于索引。在检索时，当某个句子被匹配到后，系统不仅返回该句子，还会返回其前后相邻的多个句子（形成一个“窗口”），一同提供给 LLM。这样做的目的是利用句子的精确语义进行检索触发，同时确保 LLM 获得足够连贯的上下文信息来进行生成 5。
- 小块到大块检索（Small-to-Big Retrieval）/ 递归检索（Recursive Retrieval）：这种策略的核心思想是解耦用于检索的表示单元和用于生成的上下文单元 25。具体做法是，索引更小、更精炼的文本单元（如单个句子、摘要、元数据），但在检索到这些小单元后，实际提供给 LLM 的是它们所链接的、包含更丰富上下文的父级块或整个文档 6。LlamaIndex 等框架中已包含此类实现。这种方法允许使用高度聚焦的嵌入进行精确检索，同时为 LLM 提供生成答案所需的完整背景。
动态切分（Dynamic Chunking）：一些研究开始探索根据文档内容或查询动态调整切分策略的方法，但这方面的技术细节在当前资料中提及较少 30。

选择何种切分策略并非一成不变。不恰当的切分是导致检索效果不佳（召回率低、精确率低）的直接原因之一，因为它产生了碎片化或充满噪声的检索单元 1。如果一个完整的观点被分割到两个块中，仅检索到其中一个就会导致信息不全。反之，如果一个块中大部分是无关内容，只有少量相关信息，则会给后续处理带来噪声。从固定大小切分到内容感知、句子窗口、小块到大块以及结构化索引（如下文所述）的演进，反映了业界对 RAG 检索和生成阶段不同需求的深入理解：检索需要精确的目标定位，而生成则需要充分的上下文信息 6。最终，最佳策略的选择强依赖于具体应用场景的数据特性（如文档结构、信息密度）、用户常见的查询类型（简单事实查询还是复杂推理查询）以及所选用的嵌入模型和 LLM 的能力 6。这意味着针对特定用例进行实验和评估是必要的。

高级索引结构（Advanced Indexing Structures）

除了优化切分单元，构建更有效的索引结构也是提升召回性能的关键。

基线索引（Standard Indexing）：标准的 RAG 系统通常会为切分好的文本块建立向量索引（用于语义相似度搜索）和关键词索引（如用于 BM25 算法）1。
层次化索引（Hierarchical Indexing）：这种方法将信息按不同的粒度或抽象层级组织起来，例如句子组成段落，段落组成章节，或者通过聚类生成摘要节点（图谱） 30。检索时，系统可以从顶层的概览信息开始，逐步深入到具体的细节层级，或者反之。这种结构特别适合处理需要跨层级理解信息的复杂查询，有助于提高召回的准确性和完整性。例如，RAPTOR 通过递归嵌入和聚类构建层次树 6，HIRO 利用层次化离散潜在空间 34，ArchRAG 则采用基于社区的层次聚类 32。
图索引（Graph-Based Indexing / GraphRAG-lightrag，构造节点和节点内容更新需要借助大模型，类似于多棵多叉树，使用的时候也需要借助语义相似度，可以在图上面设置出入度、重要度等等属性）：将知识库中的信息表示为图结构，其中节点可以代表实体、概念或文本块，边则表示它们之间的关系（如引用、相似性、因果关系等）1。检索过程变成在图上进行遍历或子图匹配，这有助于发现仅靠向量相似度可能忽略的深层联系和上下文关系，从而提升召回效果。特别是 CausalRAG，通过构建和追踪文本中的因果关系图，旨在保留上下文连续性并提高检索精度，确保召回的内容不仅相关，而且在逻辑上具有因果支撑 40。

采用更高级的索引结构，如层次化或图索引，其目标是超越简单的文本块匹配，捕捉信息单元之间的内在联系和结构，这对于回答需要综合、推理或深入理解上下文的查询至关重要，从而有望进一步提升召回率。

III. 增强查询理解与范围

用户提交的原始查询往往并非最优的检索输入。它们可能含糊不清、措辞不当，或者使用的术语与知识库中的文档不完全匹配，这些都会阻碍检索系统找到所有相关的文档，从而降低召回率 8。因此，在执行检索之前对查询进行处理和优化，是提升 RAG 召回性能的另一个重要方向。

查询扩展（Query Expansion）

查询扩展旨在通过增加额外信息或相关术语来拓宽原始查询的覆盖范围，以匹配更多可能相关的文档。

基于 LLM 生成假设性文档（HyDE）：Hypothetical Document Embeddings (HyDE) 是一种创新的查询扩展技术。它不直接对原始查询进行嵌入，而是先利用 LLM 根据用户查询生成一个假设性的、可能包含答案的文档片段。然后，将这个生成的假设性文档进行嵌入，并使用该嵌入向量在向量数据库中进行相似性搜索 8。其核心思想是，一个好的答案（或包含答案的文档）的嵌入向量，可能比原始查询的嵌入向量更能代表用户的信息需求，从而更有效地找到语义上真正相关的文档，弥合查询与文档之间的语义鸿沟。
基于 LLM 生成伪文档（Query2Doc）：与 HyDE 类似，Query2Doc 也利用 LLM 从原始查询生成一个“伪文档”（pseudo-document）。但不同的是，它通常将生成的伪文档与原始查询文本拼接在一起，形成一个增强版的查询，然后对这个增强查询进行嵌入和检索 8。这种方式旨在为原始查询补充更丰富的上下文信息。
基于 LLM 生成相关问题/子查询：另一种方法是利用 LLM 的能力，根据原始查询生成多个相关的、或者不同角度的问题变体。然后，系统可以对每个变体分别执行检索，最后汇总所有检索结果。这种方法通过从多个角度探索信息需求，增加了召回相关文档的可能性 18。
关键词/概念提取与扩展：利用 LLM 分析原始查询，提取其中的核心关键词或概念，并可能结合外部词典或知识图谱进行同义词、相关词扩展，将这些扩展后的词语加入到检索查询中 50。

查询重写（Query Rewriting）

查询重写侧重于修改原始查询的表述，使其更清晰、更规范，或者更符合检索系统的预期格式。

基于 LLM 的重写：利用 LLM 对用户查询进行改写，转换成更清晰、无歧义、可能更结构化的形式，使其更适合作为数据库或搜索引擎的输入 8。这对于处理口语化、不完整或包含指代词（如“它”、“那个”）的查询尤为重要。例如，在多轮对话中，LLM 可以结合历史对话信息，解析当前查询中的指代关系，生成一个包含完整上下文的、自包含的查询语句（如 FastGPT 中的“指代消除”）51。
基于规则的重写：应用预定义的规则来进行查询修改，例如同义词替换、拼写纠正、缩写词展开等 18。

查询分解（Query Decomposition）

对于那些需要综合多个信息点才能回答的复杂查询（例如，比较两个事物的优劣，或者需要多步推理的问题），单一的检索可能无法召回所有必需的信息。查询分解旨在将这类复杂查询拆分成一系列更简单、更原子化的子查询。

基于 LLM 的分解：利用 LLM 的推理或规划能力（可能借助 Chain-of-Thought 等技术）来识别复杂查询中蕴含的多个子问题。然后，系统可以针对每个子问题分别执行检索，获取相应的证据片段。最后，将所有子问题的检索结果汇总，交给 LLM 进行综合推理和最终答案的生成 8。这种方法对于需要多跳（multi-hop）信息检索的场景至关重要。例如，Collab-RAG 系统就使用一个小型语言模型（SLM）专门负责查询分解，然后由一个大型语言模型（LLM）基于分解后的子查询和检索结果进行答案合成，并通过反馈机制优化分解过程。

查询处理技术的应用体现了一个重要趋势：越来越多地将 LLM 的能力嵌入到 RAG 的检索流程中，而不仅仅是用于最终的生成阶段 8。这表明业界认识到，与其将用户查询视为固定不变的输入，不如利用 AI 自身的语义理解和生成能力来主动优化查询，使其更适应检索任务的需求。通过扩展查询覆盖面（如 HyDE、Query2Doc）或提高查询的精确性与针对性（如重写、分解），这些技术能够直接提升召回率，找到那些因语义或结构不匹配而被原始查询遗漏的相关文档 8。

然而，需要注意的是，这些基于 LLM 的查询优化技术并非没有代价。每次调用 LLM 进行查询重写、扩展或分解都会增加额外的计算开销和时间延迟 8。这在对响应速度要求较高的实时交互应用中可能成为一个制约因素。因此，如何在提升检索质量（召回率、精确率）与保持系统效率之间取得平衡，是一个需要仔细权衡的问题。一种可能的解决方案是采用自适应策略，例如，仅对系统判定为“复杂”或“模糊”的查询启用这些高级优化技术 22。

IV. 高级检索策略

在优化了文档表示（通过切分和索引）和查询理解（通过查询处理）之后，采用更强大的检索策略本身是提升召回率的又一关键途径。两种受到广泛关注的高级检索策略是混合检索和多路召回。

混合检索（Hybrid Search）

混合检索的核心思想是结合两种或多种不同类型的检索技术，以期利用各自的优势，弥补单一方法的不足，从而达到更好的整体检索效果，尤其是提升召回的全面性 36。

概念与原理：最常见的混合检索形式是结合基于关键词的稀疏检索（Sparse Retrieval）和基于向量嵌入的稠密检索（Dense Retrieval）1。
- 稀疏检索（如 BM25, TF-IDF）：擅长精确匹配关键词、专有名词、缩写词等。当查询中包含明确的、低频的术语时，稀疏检索通常能准确地找到包含这些术语的文档 1。
- 稠密检索（向量搜索）：通过比较查询和文档在高维向量空间中的距离（通常是余弦相似度），来捕捉语义层面的相似性。它能够理解同义词、近义词和概念关联，即使查询和文档没有共享完全相同的关键词，只要意思相近，也能被匹配到 1。
提升召回率的机制：混合检索通过同时利用这两种互补的能力来最大化召回率 54。如果一个相关文档因为措辞与查询不同而未被向量搜索找到，但包含了查询中的关键术语，那么它可能被关键词搜索召回。反之，如果一个相关文档不包含查询中的确切关键词，但语义上高度相关，那么它可能被向量搜索召回。通过合并两者的结果，系统更有可能捕获所有相关的文档。
实现方式与结果融合：实现混合检索通常涉及并行执行稀疏查询和稠密查询，然后将各自得到的结果列表进行融合（Fusion）和重新排序 18。一种常用的融合技术是__倒数排名融合（Reciprocal Rank Fusion, RRF）__。RRF 根据每个文档在各个检索列表中的排名来计算一个综合得分，排名越靠前的文档得分越高（通常是排名的倒数）。然后将同一文档在不同列表中的得分相加，得到最终的融合得分，并据此对所有文档进行重新排序 18。RRF 的优点在于它不需要对不同检索方法进行显式加权，能够比较公平地结合多个排序结果。当然，也可以采用加权融合的方式，但这需要根据具体场景进行参数调优 44。
平台支持：混合检索已成为许多主流搜索引擎和向量数据库平台支持的标准功能，例如 Azure AI Search 18, Google Vertex AI Search 55, Elasticsearch 36, Milvus 17, Weaviate 28, OpenSearch 61, 华为 KooSearch 52, 阿里云 OpenSearch, 以及 FastGPT 51 等。

多路召回（Multi-Route Recall）

多路召回是一个更广义的概念，指通过多种途径或策略并行或串行地进行检索，以期覆盖更广泛的相关信息，从而提升整体召回率 8。

概念：多路召回不局限于混合关键词和向量搜索，它可以包含更广泛的策略组合。
实现方法：
- 使用多种嵌入模型：针对同一份数据，使用不同的嵌入模型生成多套向量索引，查询时同时在这些索引中搜索，合并结果。
- 使用多种查询形式：如前文所述，对原始查询进行重写或分解，生成多个查询变体，分别执行检索并合并结果 49。
- 搜索不同类型的索引：例如，同时搜索文本向量索引、关键词索引以及图索引（如果构建了知识图谱）63。
- 结合不同检索算法：例如，除了 BM25 和向量搜索，还可以结合其他传统的或新颖的检索算法。
- 利用不同向量类型：一些先进的嵌入模型（如 BGE_M3）能够同时生成多种类型的向量（如稀疏向量、稠密向量、基于 token 的多向量表示），可以利用这些不同类型的向量进行多路并行召回 17。
优势：核心优势在于通过增加检索的“通路”或“视角”来提高找到所有相关信息的概率，从而提升召回率 49。
挑战：与混合检索类似，多路召回通常会返回更大、可能包含更多噪声的初始候选集，因此需要更强大的结果融合与重排序机制来保证最终结果的质量 51。

混合检索可以视为多路召回的一种具体且常见的实现方式。这两种策略都体现了通过增加检索策略的冗余性或多样性来对抗单一检索方法局限性的思想，旨在确保尽可能多的相关信息能被纳入后续处理流程。这种策略在实践中已被广泛验证是有效的，许多领先的 RAG 解决方案都集成了混合检索或多路召回的能力 1。然而，这也对后续的重排序环节提出了更高的要求，因为需要在可能更大、更嘈杂的候选集中精确地筛选出真正相关的顶级结果，以维持最终输出的精确率 18。

V. 嵌入模型优化以提升召回

嵌入模型（Embedding Model）是 RAG 系统中将文本（查询和文档块）转换为向量表示的关键组件，其质量直接决定了语义检索的效果，进而深刻影响召回率和精确率 1。优化嵌入模型是提升 RAG 召回性能的另一个核心环节。

嵌入模型选择的影响

选择一个合适的预训练嵌入模型是优化的第一步。

模型性能差异：不同的嵌入模型在捕捉文本语义细微差别方面的能力各不相同。一些模型可能更擅长理解特定领域术语，而另一些模型可能在通用语义理解上表现更佳 1。因此，模型的选择对检索性能有直接影响。
基准测试参考：参考公开的嵌入模型排行榜（如 MTEB Leaderboard）可以帮助选择在通用任务上表现优异的模型作为起点 17。
模型特性考量：
- 上下文窗口：传统的嵌入模型上下文窗口有限，处理长文本时需要切块，可能丢失上下文信息。而基于大型模型（如 SRF-Embedding-Mistral, GritLM7B）实现的嵌入模型通常支持更长的上下文窗口（例如 32k tokens），能够更好地理解长文档，有助于提升长上下文 RAG 的精度。BGE Landmark embedding 通过引入无分块检索和位置感知函数，专门设计用于解决长上下文信息不完整的问题。
- 多向量生成：一些先进模型如 BGE_M3 能够同时生成稀疏向量、稠密向量和 token 级多向量，为实现更有效的混合检索和多路召回提供了基础 17。
- 领域预训练：选择在相关领域（如医学领域的 MedCPT 44）进行过预训练的模型，可能比通用模型具有更好的领域语义理解能力。

领域自适应嵌入微调（Fine-tuning）

尽管可以选择强大的预训练模型，但通用模型往往难以完全捕捉特定业务领域或私有知识库中的独特语义和术语。此时，对嵌入模型进行微调（Fine-tuning）成为一种极其有效的提升召回率的手段。

必要性：通用嵌入模型可能无法准确理解特定领域的术语、缩写、概念及其相互关系，导致在领域内数据上检索效果不佳 3。微调旨在让模型“适应”目标领域的语言特性。
微调过程：通常选择一个性能较好的预训练嵌入模型作为基础，然后在目标领域的特定数据上进行进一步训练。常用的微调方法是__对比学习（Contrastive Learning）__，需要构建训练样本对：
- 正样本对（Positive Pairs）：通常是一个查询（或问题）与其对应的相关（或包含答案的）文档块。
- 负样本对（Negative Pairs）：同一个查询与其不相关的文档块。为了提高微调效果，选择“难负例（Hard Negatives）”——即那些语义上与查询相似但实际上不相关的文档块——通常比随机选择负样本更有效 65。
- 数据来源：微调数据可以来自已有的标注数据（如问答对），也可以利用 LLM 从领域文档中__自动生成合成数据__（如生成问题-答案对）3。ALoFTRAG 框架就展示了如何仅使用目标领域的无标签文本，通过 LLM 生成问答对和筛选难负例，实现完全本地化的自动微调。
- 目标函数：训练的目标是让模型学习到的嵌入空间中，正样本对（查询-相关文档）的距离尽可能近，而负样本对（查询-不相关文档）的距离尽可能远。常用的损失函数包括 MultipleNegativeRankingLoss。
显著效果：大量实践和研究表明，对嵌入模型进行领域自适应微调能够显著提升检索指标（包括召回率 Recall@k）3。Databricks 的实验显示，微调后的嵌入模型在多个领域数据集上的 Recall@10 指标大幅超越基线模型，甚至在某些情况下优于使用 reranker 的效果 65。Spheron 的博客文章也报告了微调后 Recall@10 提升超过 95% 的案例 3。
优势：
- 提升召回与精度：通过使嵌入更贴合领域语义，直接提升了检索的准确性。
- 可能替代 Reranker：在某些情况下，优化嵌入模型带来的提升可能足以达到目标精度，从而省去计算成本较高的 reranker 环节 65。
- 数据安全：使用 ALoFTRAG 等本地化自动微调方法，可以在不将敏感数据发送到外部的情况下完成模型优化，保障数据安全。
注意事项：嵌入模型微调虽然效果显著，但仍需要准备相应的领域数据（即使是无标签数据用于生成合成样本）和一定的计算资源来进行训练 3。

嵌入模型的优化，特别是领域自适应微调，被普遍认为是提升 RAG 系统召回率和整体性能的高杠杆策略点 3。这是因为它直接作用于语义检索的基础——向量表示。如果向量表示不能准确反映领域知识的细微差别，后续的检索步骤必然受限。微调直接解决了这个问题，使得嵌入空间与特定领域的数据和查询模式更加对齐。

这种优化方法也体现了以数据为中心的 AI 思想的重要性。即使没有现成的标注数据，利用目标领域本身的文档（无标签数据）来生成合成训练数据（如 ALoFTRAG 或 Databricks 的例子 65），也能让模型有效地学习和适应。这强调了使用与最终应用场景紧密相关的真实数据进行优化的价值。

当然，选择一个合适的__基础模型__进行微调仍然是重要的。从一个在通用语言理解或相关领域（例如医学领域的 MedCPT 44）已经表现出色的模型开始微调，通常比从一个较弱或不相关的模型开始，能更快地达到更好的性能，因为它继承了更优的初始知识表示 44。

VI. 平衡召回率与精确率

在 RAG 系统优化中，提升召回率（确保找到所有相关信息）往往伴随着一个挑战：可能会引入更多不相关的信息，从而降低精确率（Precision，即检索到的信息中有多少是真正相关的）11。这是一个固有的权衡（Trade-off）。例如，增加检索返回的文档数量（top-k 值）通常能提高召回率，但也更容易包含无关内容，导致精确率下降 12。为 LLM 提供充满噪声的上下文，会严重影响其生成答案的准确性和可靠性。因此，如何在最大化召回的同时保持可接受的精确率，是 RAG 系统设计的核心问题之一。

重排序（Reranking）在后检索精炼中的作用

重排序（Reranking）是平衡召回率与精确率的关键技术之一。它作用于初始检索（召回）阶段之后、将信息传递给 LLM 之前。

目的：对初步检索到的一批候选文档（通常是为了保证高召回率而设置较大的 k 值）进行二次排序，根据与查询更精细的相关性评估，将最相关的文档排在前面，从而提高最终送入 LLM 的文档集的精确率 1。
机制：Reranker 通常采用比初级检索器更强大、计算量也更大的模型。交叉编码器（Cross-encoder） 模型是常用的一种 Reranker。它将查询和每个候选文档同时输入到一个模型中，直接计算两者之间的相关性得分，通常能提供比双塔式检索器（如大多数向量检索）更准确的相关性判断 64。除了复杂的交叉编码器，也可以使用轻量级的 LLM 或其他专门训练的排序模型来进行重排序。
优势：Reranker 允许初始检索阶段更侧重于召回（例如使用混合检索或多路召回获取更广泛的候选集），而将精确匹配的任务交给 Reranker。这种“先宽后精”的两阶段策略，有助于在保证召回足够全面的前提下，提升最终输入 LLM 的上下文质量 10。

用于调优平衡的评估指标与策略

为了有效地平衡召回率和精确率，需要依赖一套合适的评估指标，并基于评估结果进行策略调优。

核心检索指标：
- Recall@K：衡量在前 K 个检索结果中，找到了多少比例的真正相关文档 10。这是评估召回能力的核心指标。
- Precision@K：衡量在前 K 个检索结果中，有多少比例是真正相关的 9。这是评估结果纯净度的关键指标。
- Mean Reciprocal Rank (MRR)：衡量第一个相关文档出现在检索结果列表中的平均排名的倒数 10。适用于快速找到一个正确答案就很重要的场景。
- Normalized Discounted Cumulative Gain (NDCG)：一种考虑文档相关性等级和排序位置的综合指标。排名越靠前的相关文档贡献越大 9。它能较好地反映整体排序质量。
下游/端到端指标：评估检索结果对最终 LLM 生成质量的影响。
- Context Relevance / Context Precision / Context Recall：衡量检索到的上下文本身与查询的相关性（Relevance）、与理想上下文的精确匹配度（Precision）和覆盖度（Recall）9。
- Faithfulness / Factual Consistency：衡量 LLM 生成的答案是否忠实于提供的上下文信息，没有捏造或曲解 9。
- Answer Relevance：衡量 LLM 生成的答案是否切合用户的原始问题 9。
调优策略：找到召回率与精确率的最佳平衡点通常需要进行实验。通过改变检索返回的文档数量（top-k 值），并观察上述各项指标的变化，可以做出数据驱动的决策 10。例如，可以绘制 Recall@K 随 K 变化的曲线，找到一个 K 值，在该点之后召回率增长趋于平缓，或者精确率开始显著下降，从而确定一个合适的 K 值。

RAG 系统的优化通常是一个两阶段的过程：首先通过各种技术（如混合检索、查询扩展、优化切分与索引）尽可能地提高召回率，确保所有潜在相关的“原材料”都被找回来；然后，利用重排序等后处理技术，精炼这些“原材料”，提高精确率，确保送入 LLM 的是高质量的“精料”1。

平衡召回与精确的最终目标是为 LLM 提供__最优上下文（Optimal Context）__——既包含回答问题所需的所有必要信息（高召回相关性），又尽可能少地掺杂无关噪声（高精确率）9。LLM 的生成质量直接受其接收到的上下文影响。信息不足或噪声过多都可能导致幻觉或错误答案。因此，对 RAG 系统的评估必须是全面的，既要关注检索组件的性能指标（如 Recall@K, Precision@K, NDCG），也要关注最终生成结果的质量指标（如 Faithfulness, Answer Relevance），这样才能准确地诊断系统瓶颈并进行有效优化 9。

VII. 实践应用与案例研究

理论和技术的发展最终需要通过实际应用来检验。众多云服务商、数据库厂商和研究机构都在积极探索和实践各种 RAG 召回优化技术。

主流平台与解决方案中的召回技术

Azure AI Search：提供混合检索（关键词+向量）、语义重排序（利用来自 Bing 的语义模型）以及 HyDE 等查询扩展技术 18。
Google Vertex AI Search：支持向量搜索、关键词搜索、混合搜索和重排序，强调高召回率和低延迟 55。
Elasticsearch：作为广泛应用的企业搜索引擎，其 v8 版本特别针对 RAG 进行了优化，包括原生向量引擎、相关性优化、与外部 AI 服务集成等，并支持混合检索和重排序 36。
Milvus / Zilliz：作为领先的开源向量数据库，Milvus 2.4 版本已支持稠密和稀疏向量的混合查询，并强调利用 BGE_M3 等模型进行多向量召回 17。
Weaviate：提供混合搜索功能，允许用户通过 alpha 参数调整向量搜索和关键词搜索的权重，并支持查询重写 28。
OpenSearch：字节跳动基于 OpenSearch 构建 RAG 系统，利用其多向量结构化检索能力实现混合检索，并通过意图识别、调优等方式进行检索增强 61。阿里云 OpenSearch 也支持文本与向量的多路召回（OR 逻辑）。
华为 KooSearch：提供增强版 RAG 方案，包含基于 LLM 的查询改写（多轮、指代消解）、复杂查询分解、查询分类、混合检索（稀疏+稠密）、多模态检索和结果重排序 52。
Databricks：在其平台上提供向量搜索和混合搜索能力，并特别强调通过微调嵌入模型来提升领域数据的召回效果 65。
FastGPT：采用混合检索（语义+全文），结合查询优化（指代消除、问题扩展）和 RRF 结果融合策略 51。
QAnything (网易有道)：采用两阶段检索（暗示包含重排序），并计划未来引入多路召回（Embedding+BM25）和基于 LLM 的查询重写 49。
Shelf：其 RAG 解决方案强调数据预处理（自动富化）、智能分块和混合搜索（向量+关键词）1。

召回率提升实践效果与经验总结

从上述平台实践和相关研究中，可以总结出一些关键的经验和效果：

嵌入模型微调效果显著：针对特定领域数据微调嵌入模型，是提升召回率和检索准确性的高效手段。Databricks 和 Spheron 的案例均报告了显著的 Recall@k 指标提升 3。
混合检索成为标配：几乎所有主流平台都支持或推荐使用混合检索，认为其相比单一方法能提供更全面的召回 18。
重排序是精确率保障：在高召回率的检索策略（如混合检索、多路召回）之后，使用重排序模型是保证最终结果精确度的常用且必要的步骤 10。
高级分块策略优化上下文：句子窗口、小块到大块等策略有助于在保证检索触发精确性的同时，为 LLM 提供更合适的上下文，间接影响最终效果 6。
查询处理应对复杂场景：对于模糊、复杂或多跳查询，HyDE、Query2Doc、查询重写、查询分解等技术是提升召回效果的关键 8。
多路召回提供补充：在混合检索之外，利用多种查询形式或索引来源进行多路召回，是进一步提升召回完备性的补充策略 17。

RAG 召回增强技术对比

为了更清晰地比较各种召回增强技术，下表从不同维度进行了总结：

技术类别

具体方法

描述

主要召回优势

潜在权衡/缺点

示例平台/文献

文档切分 (Chunking)

句子窗口 (Sentence Window)

嵌入句子，检索时返回句子及其上下文窗口

平衡检索触发精度和生成上下文

可能仍有上下文不足或冗余；窗口大小需调优

小块到大块 (Small-to-Big)

嵌入小块/摘要/元数据，检索后返回对应的大块/文档

解耦检索表示和生成上下文，提高检索精度同时保证上下文完整性

增加了索引复杂性；链接关系需维护

LlamaIndex 6

索引构建 (Indexing)

层次化索引 (Hierarchical)

按层级组织信息（如摘要->细节，或聚类树）

支持由粗到细或由细到粗的检索，利于复杂查询

构建和维护成本高；层级设计影响效果

RAPTOR 6, HIRO 34, ArchRAG 32

图索引 (Graph)

将文档/实体表示为图节点，关系为边

能捕捉深层关系和上下文，发现非显式连接

图构建复杂；查询效率可能受影响

GraphRAG, CausalRAG 40

查询扩展 (Expansion)

HyDE

LLM 生成假设性答案，用其嵌入进行检索

桥接查询与答案的语义鸿沟，提高语义匹配召回率

增加 LLM 调用开销和延迟；生成质量影响效果

Query2Doc

LLM 生成伪文档，与原查询合并后检索

丰富查询上下文信息，提高语义匹配度

增加 LLM 调用开销和延迟

LLM 生成多查询/子查询

LLM 根据原查询生成多个变体或子问题，分别检索

从多角度覆盖信息需求，提高复杂查询召回率

增加 LLM 调用和检索开销；结果合并复杂

查询重写 (Rewriting)

LLM 重写

LLM 改写查询，使其更清晰、规范，或消除歧义、解析指代

提高查询质量，减少因表述不清导致的召回失败

增加 LLM 调用开销和延迟

FastGPT 51, 华为 KooSearch 52, Weaviate 8

查询分解 (Decomp.)

LLM 分解

LLM 将复杂查询拆分为多个简单子查询

确保多跳或多方面问题的各部分信息都被检索到

增加 LLM 调用开销和延迟；依赖 LLM 推理能力

Collab-RAG, 华为 KooSearch 8

检索策略 (Retrieval)

混合检索 (Hybrid Search)

结合关键词（稀疏）和向量（稠密）检索

利用两者优势，提高对不同类型查询和文档的召回覆盖率

需要结果融合机制（如 RRF）；可能轻微增加延迟

Azure, Google 55, Elastic 36, Milvus 17, Weaviate 44, OpenSearch 61, Huawei 52, Databricks 65, FastGPT 51, Shelf 1

嵌入优化 (Embedding)

领域微调 (Fine-tuning)

在目标领域数据上进一步训练预训练嵌入模型

使嵌入更符合领域语义，显著提升领域内召回率

需要领域数据和训练资源；可能影响通用性

Databricks 65, Spheron 3, Weaviate 44, ALoFTRAG,

多路召回 (Multi-Route)

多策略/查询/索引并行检索

同时使用多种检索方法、查询变体或索引源

通过增加检索路径多样性，最大化召回可能性

结果集更大更噪，对融合和重排序要求高

Milvus (BGE_M3) 17, QAnything 49, 阿里云 OpenSearch63

注： "潜在权衡/缺点" 指的是该技术可能带来的负面影响或需要考虑的成本，例如对精确率的潜在影响、增加的计算延迟或实现复杂性。

这张表格清晰地对比了报告中讨论的各种 RAG 召回增强技术，总结了它们的核心机制、对召回的主要益处、潜在的权衡因素，并提供了相关的平台或文献参考。这有助于从业者根据自身需求和资源权衡选择合适的技术组合。

VIII. 结论与未来方向

关键召回增强策略总结

提升 RAG 系统召回率并非依赖单一技术，而是一个涉及数据处理、查询理解、检索算法和模型优化等多个环节的系统工程。本报告梳理的关键策略可以归纳为以下几个层面：

优化数据表示层：通过精心设计的文档切分策略（如句子窗口、小块到大块）和高级索引结构（如层次化索引、图索引），旨在更准确地捕捉信息单元，并保留必要的上下文和结构关系，为后续检索奠定良好基础。
深化查询理解层：利用查询扩展（如 HyDE、Query2Doc）、查询重写和查询分解等技术，弥合用户查询与知识库之间的语义鸿沟，处理查询的模糊性和复杂性，确保检索目标更精准、全面。
采用鲁棒的检索方法：混合检索（关键词+向量）已成为业界提升召回覆盖面的标准实践。在此基础上，采用多路召回策略（如利用多种嵌入、查询变体或索引源）可以进一步增加找到相关信息的概率。
定制化嵌入表示：选择高性能的预训练嵌入模型是基础，而针对特定领域数据进行微调，能够显著提升模型对领域语义的捕捉能力，从而大幅提高领域内的召回性能。

实践中，往往需要根据具体应用场景和数据特点，组合使用上述多种技术，才能达到最佳的召回效果。这体现了优化 RAG 召回需要采取一种整体性的系统思维。

平衡性能指标的最终思考

追求高召回率的同时，必须关注其对精确率及系统整体性能（如延迟、成本）的影响。召回率与精确率之间存在天然的权衡关系。重排序技术是管理这种权衡、在保证召回广度的同时提升结果精准度的关键后处理步骤。全面的评估体系，结合检索指标（Recall@K, Precision@K, NDCG 等）和下游生成指标（Faithfulness, Relevance 等），对于理解系统瓶颈、指导优化方向至关重要。最终的目标是根据应用需求（例如，法律研究可能更侧重召回完备性，而简单问答则可能更看重精确性和速度）来确定召回率与精确率之间的最佳平衡点。

新兴趋势展望

RAG 技术仍在快速发展中，未来提升召回率及整体性能的方向可能包括：

Agentic RAG：引入具备规划、反思、工具使用和协作能力的智能体（Agent）来执行 RAG 任务 42。智能体可以根据复杂查询动态规划多步检索策略，自主选择和组合不同的检索工具或知识源，甚至通过反思和试错来优化检索过程，有望在处理复杂、多跳、需要深度推理的查询时实现更高的召回率。
GraphRAG 与 CausalRAG：继续深化对知识图谱和因果图谱等结构化知识表示在 RAG 中的应用 30。通过利用实体间的关系或事件间的因果链条进行检索，有望超越简单的语义相似度匹配，实现更深层次、更符合逻辑的上下文召回。
自适应检索（Adaptive Retrieval）：发展能够根据查询的实时特征（如复杂度、类型、领域）或系统状态（如置信度）动态调整检索策略（如检索深度、是否启用查询扩展、选择何种检索方法）的技术。这有助于在保证效果的同时，优化资源消耗和响应延迟。

总而言之，未来 RAG 系统的召回优化方向将更加强调智能化、自适应化和对深层知识结构（如图、因果）的利用，以应对日益复杂的知识密集型任务需求。

引用的著作

RAG Optimization Tools are the Key to GenAI Accuracy - Shelf, 访问时间为四月 28, 2025， https://shelf.io/blog/rag-optimization-tools/
What Is Retrieval-Augmented Generation aka RAG - NVIDIA Blog, 访问时间为四月 28, 2025， https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/
Enhancing RAG Context Recall with a Custom Embedding Model ..., 访问时间为四月 28, 2025， https://blog.spheron.network/enhancing-rag-context-recall-with-a-custom-embedding-model-step-by-step-guide
双壁合一采用Amazon DocumentDB 向量和文本搜索构建RAG 双路召回集成Amazon Bedrock Claude 3 实现游戏产品推荐, 访问时间为四月 28, 2025， https://aws.amazon.com/cn/blogs/china/implementing-game-recommendations-using-amazon-documentdb-and-amazon-bedrock/
the chronicles of rag: the retriever, the chunk - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2401.07883
Retrieval-Augmented Generation for AI-Generated Content: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2402.19473v6
Hallucination Mitigation for Retrieval-Augmented Large Language Models: A Review - MDPI, 访问时间为四月 28, 2025， https://www.mdpi.com/2227-7390/13/5/856
Searching for Best Practices in Retrieval-Augmented Generation - ACL Anthology, 访问时间为四月 28, 2025， https://aclanthology.org/2024.emnlp-main.981.pdf
Advanced RAG Techniques - Cazton, 访问时间为四月 28, 2025， https://www.cazton.com/blogs/technical/advanced-rag-techniques
Evaluating RAG Part I: How to Evaluate Document Retrieval | deepset Blog, 访问时间为四月 28, 2025， https://www.deepset.ai/blog/rag-evaluation-retrieval
评估用于企业级RAG 的检索器 - ZENTEK 信弘智能, 访问时间为四月 28, 2025， http://www.zentek.com.cn/news/content/28
How to Improve Retrieval Systems in AI Products - Newfront, 访问时间为四月 28, 2025， https://www.newfront.com/blog/how-to-improve-retrieval-systems-in-ai-products
Understanding RAG (Part 2) : RAG Retrieval - DEV Community, 访问时间为四月 28, 2025， https://dev.to/parth_roy_a1ec4703407d025/understanding-rag-part-2-rag-retrieval-4m4j
Query2doc: Query Expansion with Large Language Models | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/376402610_Query2doc_Query_Expansion_with_Large_Language_Models
由近期RAGFlow 的火爆看RAG 的现状与未来 - AIGC开放社区, 访问时间为四月 28, 2025， https://www.aigcopen.com/content/corporate_news/23689.html
[AINews] MM1: Apple's first Large Multimodal Model - Buttondown, 访问时间为四月 28, 2025， https://buttondown.com/ainews/archive/ainews-mm1-apples-first-large-multimodal-model/
RAG 修炼手册｜RAG 敲响丧钟？大模型长上下文是否意味着向量检索 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/will-long-contextllms-kill-rag-vectordatabase
Common retrieval augmented generation (RAG) techniques ..., 访问时间为四月 28, 2025， https://www.microsoft.com/en-us/microsoft-cloud/blog/2025/02/04/common-retrieval-augmented-generation-rag-techniques-explained/
arXiv:2412.17558v1 [cs.CL] 23 Dec 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2412.17558?
A Survey of Query Optimization in Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.17558v1
Toolshed: Scale Tool-Equipped Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2410.14594
Searching for Best Practices in Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2407.01219
大语言模型的检索增强生成(RAG) 方法, 访问时间为四月 28, 2025， https://www.promptingguide.ai/zh/research/rag
Retrieval-Augmented Generation for Large Language Models: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2312.10997
LlamaIndex Talk (AI Conference), 访问时间为四月 28, 2025， https://aiconference.com/wp-content/uploads/2023/10/Jerry-Lui-LlamaIndex-Talk-AI-Conference-1.pdf
FactCheck: Knowledge Graph Fact Verification Through Retrieval-Augmented Generation Using a Multi-Model Ensemble Approach, 访问时间为四月 28, 2025， https://thesis.unipd.it/retrieve/39ee02f8-f852-4aed-a5b6-25f8fedd4370/main.pdf
Towards Long Context RAG — LlamaIndex - Build Knowledge Assistants over your Enterprise Data, 访问时间为四月 28, 2025， https://www.llamaindex.ai/blog/towards-long-context-rag
Advanced Retrieval Strategies - LlamaIndex, 访问时间为四月 28, 2025， https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/advanced_retrieval/
advanced_rag_small_to_big.ipynb - Colab, 访问时间为四月 28, 2025， https://colab.research.google.com/github/sophiamyang/demos/blob/main/advanced_rag_small_to_big.ipynb
(PDF) Enhancing Retrieval-Augmented Generation Accuracy with Dynamic Chunking and Optimized Vector Search - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388050476_Enhancing_Retrieval-Augmented_Generation_Accuracy_with_Dynamic_Chunking_and_Optimized_Vector_Search
[2503.10150] Retrieval-Augmented Generation with Hierarchical Knowledge - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10150
ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.09891v1
HIRO: Hierarchical Information Retrieval Optimization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.09979v2
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2403.00435v1
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization - MIT Press Direct, 访问时间为四月 28, 2025， https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00703/125483/Hierarchical-Indexing-for-Retrieval-Augmented
【元脑技术详解】改进三大关键环节，构建高精度大模型RAG知识库 ..., 访问时间为四月 28, 2025， https://www.ieisystem.com/about/news/16680.html
Toward Optimal Search and Retrieval for RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.07396v1
HIRO: Hierarchical Information Retrieval Optimization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.09979v1
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2409.14924v1
arXiv:2503.19878v1 [cs.CL] 25 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.19878?
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.19878
CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.19878v1
Out of Style: RAG's Fragility to Linguistic Variation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.08231v1
Advanced RAG Techniques | Weaviate, 访问时间为四月 28, 2025， https://weaviate.io/blog/advanced-rag
Searching for Best Practices in Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2407.01219v1
开发RAG 解决方案- 信息检索阶段- Azure Architecture Center ..., 访问时间为四月 28, 2025， https://learn.microsoft.com/zh-cn/azure/architecture/ai-ml/guide/rag/rag-information-retrieval
開發RAG 解決方案—Information-Retrieval 階段- Azure Architecture Center | Microsoft Learn, 访问时间为四月 28, 2025， https://learn.microsoft.com/zh-tw/azure/architecture/ai-ml/guide/rag/rag-information-retrieval
检索增强生成Retrieval-Augmented Generation, 访问时间为四月 28, 2025， https://bimsa.net/doc/notes/31059.pdf
RAG系统：数据越多效果越好吗？ · netease-youdao/QAnything Wiki ..., 访问时间为四月 28, 2025， https://github.com/netease-youdao/QAnything/wiki/RAG%E7%B3%BB%E7%BB%9F%EF%BC%9A%E6%95%B0%E6%8D%AE%E8%B6%8A%E5%A4%9A%E6%95%88%E6%9E%9C%E8%B6%8A%E5%A5%BD%E5%90%97%EF%BC%9F/c2e77061c0679cb610d66db8a106e0736dd49974
Toolshed: Scale Tool-Equipped Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases - SciTePress, 访问时间为四月 28, 2025， https://www.scitepress.org/Papers/2025/133030/133030.pdf
知识库搜索方案和参数| FastGPT, 访问时间为四月 28, 2025， https://doc.tryfastgpt.ai/docs/guide/knowledge_base/dataset_engine/
云搜索服务-企业搜索-KooSearch-华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/css/koosearch.html
Unveiling the Potential of Multimodal Retrieval Augmented Generation with Planning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.15470v1
Azure AI 搜索中的检索增强生成(RAG) - Learn Microsoft, 访问时间为四月 28, 2025， https://learn.microsoft.com/zh-cn/azure/search/retrieval-augmented-generation-overview
什么是检索增强生成(RAG)？ - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/use-cases/retrieval-augmented-generation?hl=zh-CN
用于构建搜索和RAG 体验的Vertex AI API - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/generative-ai-app-builder/docs/builder-apis?hl=zh-cn
多路召回实战_智能开放搜索OpenSearch(Open Search)-阿里云帮助 ..., 访问时间为四月 28, 2025， https://help.aliyun.com/zh/open-search/retrieval-engine-edition/multi-way-recall-actual-combat
理解RAG 应用- AI 辅助软件工程：实践与案例解析, 访问时间为四月 28, 2025， https://aise.phodal.com/agent-understand-rag.html
DataFunCon 2024·北京站：大数据-大模型双核时代 - 百格活动, 访问时间为四月 28, 2025， https://www.bagevent.com/event/8811235?bag_track=bagevent
检索增强生成(RAG)：OceanBase在联通软研院的落地实践-数据库技术博客, 访问时间为四月 28, 2025， https://open.oceanbase.com/blog/15933541680
TOP100全球软件案例研究峰会, 访问时间为四月 28, 2025， https://top100.msup.com.cn/detail?id=17955
企业搜索服务-KooSearch-华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/koosearch.html
RAG 修炼手册｜如何评估RAG 应用？ - Zilliz Cloud 向量数据库, 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/how-to-evaluate-rag-zilliz
提高RAG 应用准确度，时下流行的Reranker 了解一下？ - Zilliz 向量 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/rag-reranker-therole-and-tradeoffs
Improving Retrieval and RAG with Embedding Model Finetuning ..., 访问时间为四月 28, 2025， https://www.databricks.com/blog/improving-retrieval-and-rag-embedding-model-finetuning
什麼是檢索增強生成(RAG)？ - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/use-cases/retrieval-augmented-generation?hl=zh-TW
ADL158《AI搜索与信息智能体》开启报名-ADL动态 - 中国计算机学会, 访问时间为四月 28, 2025， https://www.ccf.org.cn/Activities/Training/ADL/ADL/2025-04-14/841444.shtml
USTCAGI/Awesome-Papers-Retrieval-Augmented-Generation - GitHub, 访问时间为四月 28, 2025， https://github.com/USTCAGI/Awesome-Papers-Retrieval-Augmented-Generation
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388080924_Agentic_Retrieval-Augmented_Generation_A_Survey_on_Agentic_RAG
[2501.09136] Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.09136
asinghcsu/AgenticRAG-Survey: Agentic-RAG explores advanced Retrieval-Augmented Generation systems enhanced with AI LLM agents. - GitHub, 访问时间为四月 28, 2025， https://github.com/asinghcsu/AgenticRAG-Survey
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v2
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v1
(PDF) Agentic RAG Redefining Retrieval-Augmented Generation for Adaptive Intelligence, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/389719393_Agentic_RAG_Redefining_Retrieval-Augmented_Generation_for_Adaptive_Intelligence
ARCeR: an Agentic RAG for the Automated Definition of Cyber Ranges - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.12143v1
Agentic Information Retrieval - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.09713v3
AN AGENTIC FRAMEWORK FOR GRAPH RETRIEVAL AUGMENTED GENERATION - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=g2C947jjjQ
arXiv:2405.10467v4 [cs.AI] 6 Nov 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2405.10467
(PDF) The Agentic AI Mindset - A Practitioner's Guide to Architectures, Patterns, and Future Directions for Autonomy and Automation - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390958865_The_Agentic_AI_Mindset_-_A_Practitioner's_Guide_to_Architectures_Patterns_and_Future_Directions_for_Autonomy_and_Automation
Abul Ehtesham - CatalyzeX, 访问时间为四月 28, 2025， https://www.catalyzex.com/author/Abul%20Ehtesham
CAPRAG: A Large Language Model Solution for Customer Service and Automatic Reporting using Vector and Graph Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.13993
From RAG to Multi-Agent Systems: A Survey of Modern Approaches in LLM Development, 访问时间为四月 28, 2025， https://www.preprints.org/manuscript/202502.0406/v1