当前位置：首页 > ai >正文

【RAG Query Expansion论文解析】用 LLM 进行查询扩展 (Query Expansion)

ai 2025/8/1 5:57:08

检索增强生成 (Retrieval Augmented Generation, RAG) 正在彻底改变我们与大型语言模型 (LLM) 交互的方式。通过引入外部知识库，RAG 能够显著提升 LLM 回答的准确性、时效性，并有效缓解“一本正经地胡说八道”（幻觉）的问题。

然而，一个强大的 RAG 系统的背后，不仅仅依赖于高质量的知识库和先进的 LLM，更取决于一个常常被忽视但至关重要的环节——检索 (Retrieval)。检索的效果，直接决定了 LLM 能否获得最相关的“参考资料”来生成答案。

而检索面临的一个核心挑战是词汇鸿沟 (Lexical Mismatch)：用户提出的查询 (Query) 通常简短、口语化，甚至带有歧义，而知识库中的文档则可能使用更专业、更多样化的词汇来描述同一个概念。

传统的检索系统（如 BM25）很可能因为关键词不匹配而错过这篇最相关的文章。这就是词汇鸿沟问题。

为了弥补这一鸿沟，查询扩展 (Query Expansion, QE) 技术应运而生。其核心思想是对原始查询进行“丰富化”处理，加入更多的相关词汇、同义词或上下文信息，从而提高检索的召回率和准确率。

在 LLM 时代，我们有了一种前所未有的强大工具来进行查询扩展。微软研究院的论文 “Query2doc: Query Exp