当前位置: 首页 > news >正文

14B检索能力超过Google Search,阿里ZeroSearch通过RL激发LLM检索推理能力~

有效的信息搜索对于提升 LLMs 的推理和生成能力至关重要。近期探索的强化学习(RL)方法面临两大主要挑战:(1)文档质量不可控:搜索引擎返回的文档质量往往是不可预测的;(2)高昂的API成本:RL训练频繁地进行模拟运行,涉及数十万次搜索请求,导致了巨大的API费用。

为此,阿里通义Lab提出了ZEROSEARCH,这是一个无需与真实搜索引擎交互即可激励LLMs搜索能力的强化学习框架。

图片

ZEROSEARCH从轻量级的监督微调开始,将LLM转化为一个检索模块,使其能够根据查询生成相关和噪声文档。在强化学习训练过程中,采用基于课程式训练策略,逐步降低生成文档的质量,通过让模型逐渐适应更具挑战性的检索场景,逐步激发其推理能力。

图片

  1. 训练模板:采用多轮交互模板,引导策略模型进行迭代推理和信息检索,直到得出最终答案。模板分为三个阶段:内部推理(<think>...</think>)、搜索查询(<search>...</search>)和答案提供(<answer>...</answer>)。

  2. 搜索模拟微调:通过收集与真实搜索引擎交互的轨迹,并对其进行标注(正确答案为正,错误答案为负),然后提取查询-文档对进行微调,使LLM能够生成有用或噪声文档。

  3. 课程式训练策略:在训练过程中,逐步增加生成文档的噪声概率,使策略模型逐渐适应更具挑战性的检索场景。

  4. 奖励设计:采用基于F1分数的奖励函数,平衡精确率和召回率,避免模型通过生成过长答案来增加正确答案的出现概率。

  5. 训练算法:兼容多种强化学习算法,如PPO、GRPO和Reinforce++,并通过损失掩码机制稳定训练过程。

图片

图片

实验使用了Qwen-2.5-7B、Qwen-2.5-3B和LLaMA-3.2-3B等模型家族,并通过SerpAPI与Google Web Search进行交互。训练时,将NQ和HotpotQA的训练集合并为统一数据集进行微调,并在七个数据集上评估性能。

  • ZEROSEARCH在7B检索模块时与Google Search性能相当,在14B检索模块时甚至超越了Google Search。

  • ZEROSEARCH在不同模型家族、参数大小和类型(基础模型或指令调整模型)上均表现出良好的泛化能力。

图片

图片

图片

图片

来源 | PaperAgent

http://www.xdnf.cn/news/400843.html

相关文章:

  • MFC listctrl修改背景颜色
  • 【文心智能体】使用文心一言来给智能体设计一段稳定调用工作流的提示词
  • 解决LangChain4j报错HTTP/1.1 header parser received no bytes
  • 精益数据分析(56/126):创业阶段的划分与精益数据分析实践
  • ElasticSearch聚合操作案例
  • Oracle adg环境下调整redo日志组以及standby日志组大小
  • CSDN博客粘贴图片失败如何解决
  • 佰力博科技与您探讨阻抗谱测量的基本原理和测量方法
  • 【言语】刷题2
  • Qt5.14.2 链接 MySQL 8.4 遇到的问题
  • 第三方软件测评中心分享:软件功能测试类型和测试工具
  • 动手学深度学习12.4.硬件-笔记练习(PyTorch)
  • # 实时英文 OCR 文字识别:从摄像头到 PyQt5 界面的实现
  • python 的 ​uv、pip​ 和 ​conda​ 对比和技术选型
  • 安卓玩机工具-----安卓机型一款很好用的数据备份恢复软件 支持云端备份
  • C#中SetProperty方法使用
  • Qt进阶开发:QTcpServer的的详解
  • 对抗进行性核上性麻痹,健康护理筑牢生活防线
  • Golang 应用的 CI/CD 与 K8S 自动化部署全流程指南
  • 深度拆解!MES如何重构生产计划与排产调度全流程?
  • 【软件工程】软件缺陷 基于组合的优化方法
  • 获取高德地图JS API的安全密钥和Key的方法
  • HBase进阶之路:从原理到实战的深度探索
  • 1.6 偏导数
  • Ollama+OpenWebUI+docker附带软件下载链接,配置流程,适合内网部署,可以多人内网使用
  • CSS3(BFC)
  • 智能家居“心脏“升级战:GD25Q127CSIG国产芯片如何重构家庭物联生态
  • Lodash isEqual 方法源码实现分析
  • 企业级商城系统容器化部署技术方案
  • 【Linux】socket网络编程之TCP