当前位置: 首页 > news >正文

MaskSearch:提升智能体搜索能力的新框架

摘要:检索增强型语言模型(Retrieval-Augmented Language Models,RALMs)是一种经典范式,模型通过专门模块检索外部知识来增强生成能力。最近在Agent技术方面的进展使得大型语言模型(LLMs)能够自主利用工具进行检索、规划和推理。尽管现有的基于训练的方法显示出潜力,但它们的Agent能力受到训练中使用任务特定数据的固有特性的限制。为了进一步增强Agent的通用搜索能力,我们提出了一个新的预训练框架——MASKSEARCH。在预训练阶段,我们引入了检索增强掩码预测(Retrieval Augmented Mask Prediction,RAMP)任务,模型通过利用搜索工具填补大量预训练数据中的掩码片段,从而为LLMs获得通用的检索和推理能力。之后,模型在下游任务上进行训练以实现进一步提升。我们同时应用了监督微调(Supervised Fine-tuning,SFT)和强化学习(Reinforcement Learning,RL)进行训练。对于SFT,我们结合了基于Agent和基于蒸馏的方法来生成训练数据,从由规划器、改写器、观察者组成的多Agent系统开始,随后是一个自我进化的教师模型。而对于RL,我们采用DAPO作为训练框架,并采用由答案奖励和格式奖励组成的混合奖励系统。此外,我们引入了一种课程学习方法,允许模型根据掩码片段的数量从简单到复杂逐步学习实例。我们在开放域多跳问答场景中评估了我们框架的有效性。通过广泛的实验,我们证明了MASKSEARCH显著提升了基于LLM的搜索Agent在领域内和领域外下游任务上的性能。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 检索增强掩码预测(RAMP)

3.2 两阶段训练流程

阶段1:预训练(SFT和RL)

阶段2:下游任务微调

四、实验结论

4.1 性能提升

4.2 模型规模影响

4.3 消融对比结果

五、总结


一、背景动机

论文题目:MASKSEARCH: A Universal Pre-Training Framework to Enhance Agentic Search Capability

论文地址:https://arxiv.org/pdf/2505.20285

  • 大模型的知识缺陷:LLMs在处理领域特定或实时任务时容易产生幻觉,依赖内部静态知识,无法动态获取外部信息。
  • 检索增强语言模型(RALMs)的不足:传统RALMs通过独立检索模块获取知识,但检索与生成过程分离,难以应对多步推理任务,缺乏主动利用工具的能力。
  • 智能体技术存在问题:基于LLM的智能体可自主规划、调用工具(如搜索引擎),但现有训练方法依赖任务特定数据,泛化能力受限,尤其在跨领域任务中表现不足。

故如何让模型在预训练阶段学会通用的检索与推理能力,使其能灵活适应不同下游任务(如开放域多跳问答),而非依赖特定任务的数据是当前研究的缺失,本文提出了一个新的预训练框架——MASKSEARCH。在预训练阶段,我们引入了检索增强掩码预测(Retrieval Augmented Mask Prediction,RAMP)任务,模型通过利用搜索工具填补大量预训练数据中的掩码片段,从而为LLMs获得通用的检索和推理能力。

二、核心贡献

1. 提出MASKSEARCH框架

  • 检索增强掩码预测任务(RAMP):通过掩码文本中的关键跨度(如实体、数值),强制模型通过多步搜索和推理填充掩码,学习任务分解、工具调用和观察推理能力。
  • 两阶段训练策略
    • 阶段1:预训练(SFT/RL):利用RAMP任务注入通用检索推理能力。
    • 阶段2:下游任务微调:结合具体任务(如问答)进一步优化。

2. 混合数据构建

  • 结合多智能体系统(规划器、重写器、观察者)和自进化蒸馏,生成高质量推理轨迹(CoT),解决数据规模与质量的平衡问题。

3. 动态奖励与课程学习

  • 混合奖励系统:结合格式奖励(响应结构)和答案奖励(正确性),避免奖励欺骗。
  • 课程学习:按掩码数量递增难度,逐步提升模型处理复杂任务的能力。

三、实现方法

3.1 检索增强掩码预测(RAMP)

  • 数据构建
    • 从维基百科提取文本,使用Qwen-Turbo识别显著跨度(实体、日期、数值等),随机掩码1-4个跨度生成训练样本。
原始文本:Andrew Barto received his B.S. in mathematics from the University of Michigan in 1970.  
掩码文本:Andrew Barto received his [mask] with distinction in [mask] from the University of Michigan in 1970.  
  • 目标:模型需通过多步搜索(如查询“Andrew Barto UMich degree 1970”)和推理填充掩码,输出完整正确的文本。

3.2 两阶段训练流程

阶段1:预训练(SFT和RL)

监督微调(SFT)

  • 多智能体数据生成
    • 规划器(Planner)分解任务为子问题,生成初始搜索查询。
    • 观察者(Observer)分析搜索结果,决定是否继续搜索或生成答案。
    • 重写器(Rewriter)优化查询以提升检索效果。
  • 自进化蒸馏:用训练好的教师模型迭代生成更复杂的推理轨迹,扩大数据集(如从58K到10M样本)。

强化学习(RL)

  • 采用DAPO算法,结合动态采样和令牌级策略梯度,优化模型的搜索策略。
  • 奖励函数
    • 格式奖励(R_f):响应是否符合指定格式(如包含搜索标记、推理步骤)。
    • 答案奖励(R_a):基于令牌级召回率(TR)或模型评分(如Qwen2.5-72B-Instruct作为裁判),避免长度欺骗。

阶段2:下游任务微调

  • 针对具体任务(如多跳问答),使用RAMP预训练模型作为初始化,进一步微调以适应任务特性。

四、实验结论

4.1 性能提升

  • 在HotpotQA(内域任务)上,MASKSEARCH(SFT+RL)较基线模型(如Search-R1)提升3-5%召回率。
  • 在跨领域任务(如Bamboogle、FreshQA)中,提升幅度更大(平均+10%以上),证明其泛化能力。

4.2 模型规模影响

  • 小模型(如Qwen2.5-1.5B)通过RAMP预训练,性能接近甚至超越未预训练的大模型(如LLaMA-3.2-8B)。
  • 大模型(如Qwen2.5-7B)在自进化蒸馏后,性能进一步提升,表明数据质量与规模的重要性。

4.3 消融对比结果

  • RAMP的必要性
    • 无RAMP预训练时,模型在跨领域任务中性能显著下降(平均-5%),验证预训练阶段获取通用能力的关键作用。

  • 奖励函数效果
    • 基于模型评分的奖励(Model-based Reward)优于单纯召回奖励,有效抑制响应长度欺骗,提升答案准确性。

  • 课程学习的有效性
    • 按掩码数量递增训练的模型,在验证集上的表现优于随机混合训练,尤其在高掩码数量(k=4)时优势明显,证明逐步挑战策略的合理性。

五、总结

该文章将智能体的检索推理能力融入预训练框架,通过RAMP任务实现通用工具调用与多步推理的统一建模。结合多智能体数据生成、自进化蒸馏和动态奖励机制,解决传统方法依赖任务特定数据的局限。

http://www.xdnf.cn/news/868015.html

相关文章:

  • Qwen3与MCP协议:重塑大气科学的智能研究范式
  • 文献分析指令
  • SSM spring Bean基础配置
  • 代理ip的原理,代理ip的类型有哪些?
  • Vue全局事件总线
  • 【Cursor】开发chrome插件,实现网页tab根据域名分组插件
  • 区块链+AI融合实战:智能合约如何结合机器学习优化DeFi风控?
  • 使用 React Native 开发鸿蒙(HarmonyOS)运动健康类应用的系统化准备工作
  • Moticon智能鞋垫传感器OpenGo如何提升神经病学步态分析的精准性
  • 比较运算符:==、!=、>、<、>=、<=
  • 机器学习与深度学习10-支持向量机02
  • DAY43 复习日
  • 【和春笋一起学C++】(十七)C++函数新特性——内联函数和引用变量
  • [Java 基础]注释
  • 【LLMs篇】13:LLaDA—大型语言扩散模型
  • 省赛中药检测模型调优
  • 深度剖析 DeepSeek 开源模型部署与应用:策略、权衡与未来走向
  • 物联网控制技术期末复习 知识点总结 第二章 单片机
  • 【Hive入门】
  • 【网络】select、poll和epoll模型的区别
  • Kafka broker 写消息的过程
  • 突破数据孤岛:StarRocks联邦查询实战指南
  • C语言中易混淆问题【数组指针与指针数组详解】
  • C++内存列传之RAII宇宙:智能指针
  • C#入门学习笔记 #7(传值/引用/输出/数组/具名/可选参数、扩展方法(this参数))
  • WPF可拖拽ListView
  • 质检 LIMS 系统数据防护指南 三级等保认证与金融级加密方案设计
  • 英国2025年战略防御评估报告:网络与电磁域成现代战争核心
  • Axios 取消请求的演进:CancelToken vs. AbortController
  • 【读代码】从预训练到后训练:解锁语言模型推理潜能——Xiaomi MiMo项目深度解析