当前位置：首页 > ai >正文

突破传统！SEARCH-R1如何让LLM与搜索引擎协同推理？

ai 2025/7/21 5:48:12

大语言模型（LLMs）虽强大，但在复杂推理和获取最新信息方面存在局限。本文介绍的SEARCH-R1框架，通过强化学习让LLMs能自主与搜索引擎交互，在多个问答数据集上性能大幅提升。想知道它是如何做到的吗？快来一探究竟！

论文标题
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
来源
arXiv:2503.09516v3 [cs.CL] + http://arxiv.org/abs/2503.09516

文章核心

研究背景

大语言模型在自然语言处理方面成果显著，但在复杂推理和获取外部最新信息时面临挑战，目前整合LLMs与搜索引擎的方法存在不足。

研究问题

现有整合LLMs与搜索引擎的方法，如检索增强生成（RAG）和将搜索引擎视为工具的方法，存在LLMs与搜索引擎交互不佳、依赖大量标注数据等问题。
将强化学习应用于搜索和推理场景时，面临如何有效整合搜索引擎到RL方法以确保稳定优化、实现多轮交错推理和搜索、设计有效奖励函数等挑战。

主要贡献

提出创新框架：引入SEARCH-R1框架，使LLMs能与搜索引擎交错推理，优化推理轨迹，提升复杂推理任务的表现。
创新训练方法：通过检索令牌掩码稳定RL训练，支持多轮交错推理和搜索，采用简单的基于结果的奖励函数，避免复杂奖励设计。
验证框架有效性：在七个问答数据集上进行实验，SEARCH-R1相比各种RAG基线在相同设置下性能显著提升，Qwen2.57B提升41%，Qwen2.5-3B提升20% ，并对RL优化方法等进行了实证分析。

方法论精要

核心算法/框架：采用强化学习框架，将搜索引擎建模为环境的一部分，兼容PPO和GRPO等RL算法，支持LLMs与搜索引擎多轮交互。
关键参数设计原理：在PPO和GRPO中，通过对检索令牌进行损失掩码，确保策略梯度仅在LLM生成的令牌上计算，稳定训练。PPO通过广义优势估计$ GAE $计算优势估计$ A_{t} $， GRPO 则利用多个采样输出的平均奖励作为基线计算优势$ \hat{A}_{i, t} $。
创新性技术组合：结合LLMs推理与搜索引擎检索，在LLMs推理过程中，通过特定令牌和）触发搜索引擎调用，检索结果用和包裹作为后续推理的上下文，实现多轮交错推理和搜索。
实验验证方式：使用七个基准数据集，包括通用问答（如NQ、TriviaQA、PopQA）和多跳问答（如HotpotQA、2WikiMultiHopQA等）数据集。对比基线涵盖无检索推理（直接推理、思维链推理）、有检索推理（RAG、IRCoT等）以及基于微调的方法（监督微调、无搜索引擎的RL微调），在相同的检索模型、训练数据和预训练LLMs等设置下进行公平比较。

实验洞察

性能优势：在七个数据集上，SEARCH-R1相比基线方法表现出色。以Qwen2.5-7B模型为例，相比RAG基线，在NQ数据集上绝对提升约13.1%（从0.349提升到0.480），平均相对提升41%；Qwen2.5-3B模型平均相对提升20% ，在多个数据集上均有显著性能提升。
效率突破：论文未明确提及SEARCH-R1在训练/推理速度上的优化程度，但从整体框架设计来看，其多轮交错推理和搜索机制可能在一定程度上提高推理效率，不过这需要进一步的实验验证。
消融研究：对检索令牌损失掩码进行实验，发现使用该掩码的模型性能更优。如在Qwen2.5-7b-base模型上，使用掩码的SEARCH-R1在NQ数据集上的EM值为0.480 ，无掩码时为0.388，平均得分也从0.343提升到0.431，证明了该模块的有效性。

本文由AI辅助完成。

查看全文

http://www.xdnf.cn/news/748.html