当前位置: 首页 > backend >正文

【论文解读】START:自学习的工具使用者模型

1st author: ‪Chengpeng Li‬ - ‪Google 学术搜索‬

paper: [2503.04625] START: Self-taught Reasoner with Tools

code: 暂未公布


5. 总结 (结果先行)

大型语言推理模型(Large Reasoning Models, LRMs)在模拟人类复杂推理方面取得了显著进展,特别是通过长链思考(Long Chain-of-Thought, CoT)展现出分解问题、多策略探索等类人认知行为。然而,这些模型单纯依赖内部“默算”的机制,在面对复杂计算、实时信息获取或精确验证时,容易产生幻觉(hallucinations)和计算错误,限制了其在关键任务上的可靠性

START模型贡献在于:

  1. 证明了通过“提示”可以低成本、无须标注地激发LLM的工具使用潜能 (Hint-infer)
  2. 设计了一套有效的自学习框架 (Hint-RFT),能够将这种潜能转化为模型稳定、自主的能力

Hint-infer的巧妙之处在于它利用了LLM已有的潜在能力,通过极低的成本启动了工具学习的正反馈循环。这种“提示-推理-微调”的自学习范式,对于未来构建更强大、更可靠的AI系统具有重要的借鉴意义。

从更广阔的视角看,这项工作对于AI Agent的发展具有重要意义。START所展示的“引导-探索-内化”的学习模式,可能为训练更自主、更全能的AI Agent提供了一条可行的途径。

后续值得探索的方向包括:

  • 更丰富的工具集:将Hint-infer和Hint-RFT扩展到Python解释器之外的更多工具,如搜索引擎、知识库API、物理模拟器等。
  • 动态提示生成:当前提示是人工设计的,未来或许可以探索让模型自身学习生成最有效的“自我提示”来调用工具。
  • 工具选择与组合:当面临多种可用工具时,模型如何学习选择最优工具或工具组合来解决问题。

1. 思想

START的核心思想在于,如何让一个预训练的LRM能够 自我教会 在其长链思考过程中适时且有效地调用外部工具(本文特指Python解释器)。研究者们意识到,直接通过指令或少量示例(few-shot prompting)来引导现有LRM在长链推理中稳定调用工具非常困难。这可能是因为模型在预训练和针对CoT的微调阶段,主要被“教导”去解决问题本身,而非学习何时以及如何求助于外部工具

START的巧妙之处在于它提出了一种 “提示-推断-精炼” 的自学习框架,旨在唤醒并强化模型利用工具的能力。
Figure 1

2. 方法

START的自学习框架包含两个技术提示推断提示拒绝采样微调

  • 提示推断 (Hint-infer)

    • 机制:在LRM进行推理时,于特定位置(例如,在“Alternatively”、“Wait”等表示思考转换的连接词后,或在长CoT结束前)注入人工设计的、与上下文相关的“提示” (hints),例如 “等等,这里用Python算一下也许更好” (Wait, maybe using Python here is a good idea)。
    • 效果:这类提示无需任何示例数据 (demonstration data) 即可有效激发LRM调用外部工具的潜能。对于代码生成任务,提示会更具体,包含代码模板引导模型对测试用例进行本地验证。
    • 扩展:Hint-infer本身也可以作为一种测试时增强(test-time scaling)方法,通过在推理末端多次迭代插入提示,给予模型更多“思考时间”和调用工具的机会来提升性能。

    Figure 3

  • 提示拒绝采样微调 (Hint Rejection Sampling Fine-Tuning, Hint-RFT)
    这是一个两阶段的自学习与微调过程,旨在将Hint-infer诱导出的工具使用行为内化为模型的自身能力。

    1. 阶段一:引导工具感知 (Bootstrapping START-0)

      • 数据合成:使用基础LRM(如QwQ-32B-Preview)配合Hint-infer处理一批训练数据(包含数学、代码等问题)。
      • 筛选与构建 D s e e d D_{seed} Dseed收集那些模型仅在Hint-infer下才解决,并且包含了有效工具调用(Python代码执行)的推理轨迹。这些轨迹经过评分、过滤和必要的修改(如统一Python标识符、移除占位符),形成初始的工具使用示范数据集 D s e e d D_{seed} Dseed
      • 初步微调:在 D s e e d D_{seed} Dseed 上微调基础LRM,得到START-0模型。此时,START-0已经具备了初步的、自我驱动的工具使用意识
    2. 阶段二:强化工具熟练度 (Developing START)

      • 数据增强与提纯:使用START-0模型,在全部训练数据上进行带有拒绝采样的推理,生成更丰富、更多样化的长链工具调用轨迹。对这些轨迹进行评分、过滤重复模式、人工修正不合理内容,保留每个问题至多一个高质量的回答,构成更优的工具使用数据集 D S T A R T D_{START} DSTART
      • 最终微调:在 D S T A R T D_{START} DSTART 上再次微调基础LRM(论文中表述为QwQ-32B-Preview,但逻辑上也可以是START-0),得到最终的START模型,该模型能够更熟练和自主地在长链思考中集成工具使用。

    符号解释:

    D s e e d D_{seed} Dseed:通过Hint-infer生成的、包含成功工具调用的初始高质量轨迹集合。

    D S T A R T D_{START} DSTART:通过START-0模型配合拒绝采样生成的、质量更高、多样性更好的工具调用轨迹集合。

    QwQ-32B-Preview:论文中使用的基础大型语言模型。

    START-0:经过 D s e e d D_{seed} Dseed 初步微调后,具备基本工具使用能力的模型。

    START:经过 D S T A R T D_{START} DSTART 再次微调后,具备更强工具使用能力的最终模型。

3. 优势

  • 显著提升复杂推理能力:通过将精确计算、代码执行与验证等任务外包给Python解释器,有效克服了LRM在这些方面的固有弱点,减少了幻觉。
  • 高效的自学习机制:Hint-infer的引入避免了大规模人工标注工具使用数据的需求,通过“提示”巧妙地诱导出模型的潜在能力,并结合RFT进行强化,实现了低成本的自我进化。
  • 保留并增强长CoT的优点:START并非简单地用工具替代思考,而是在长CoT的框架内有机地集成工具,使得模型既能进行宏观的策略规划,又能借助工具处理微观的复杂执行。
  • 开放性与可复现性:论文基于开源模型进行微调,并详细描述了方法,为社区提供了借鉴。

4. 实验

START在一系列具有挑战性的基准测试上展现了其有效性:

  • 测试平台
    • GPQA:博士级别的科学问答。
    • MATH (AMC23, AIME24, AIME25):竞赛级别的数学问题。
    • LiveCodeBench:竞赛级别的代码生成问题。
  • 实验结果
    • START显著优于其基座模型QwQ-32B-Preview。例如,在AIME25上,从基座的40.0%提升至47.1%;在LiveCodeBench上,从41.4%提升至47.3%。
    • 与业界顶尖模型相比,START的性能与R1-Distill-Qwen-32B(基于671B参数模型蒸馏)和闭源的o1-Preview(可能是指GPT系列模型的某个版本)相当或有所超越。
  • 消融实验与分析
    • Hint-infer的有效性:即便仅仅在测试时对QwQ-32B-Preview使用Hint-infer,也能带来一定的性能提升证明了提示的即时引导作用
    • Long CoT vs. Long TIR:通过对比仅用更多长CoT数据微调的模型(QwQ-RFT)与START,证明了工具调用能力(Long TIR)是性能提升的核心驱动因素,而非仅仅是训练数据量的增加。
    • 测试时提示对START的影响:对已经微调好的START模型在测试时再使用Hint-infer,性能提升不如对基座模型明显。这间接说明START已经较好地内化了工具使用策略,外部提示的边际效益降低。
http://www.xdnf.cn/news/14037.html

相关文章:

  • Objective-c Block 面试题
  • 龙虎榜——20250613
  • 2025国家卫健委减肥食谱PDF完整版(免费下载打印)
  • Vue3 + Element Plus中el-table加载状态分析
  • 高频面试之10 Spark Core SQL
  • 深入解析 Python 的 socket 库:从基础通信到网络编程实战
  • 无人机抛投器模块使用与技术分析!
  • 篇章六 系统性能优化——资源优化——CPU优化(3)
  • React第六十二节 Router中 createStaticRouter 的使用详解
  • pmset - 控制 macOS 系统电源、睡眠、唤醒与节能
  • c++的STL库里的fill
  • 自主 Shell 命令行解释器
  • Dify创建 echarts图表 (二)dify+python后端flask实现
  • [MSPM0开发]之七 MSPM0G3507 UART串口收发、printf重定向,解析自定义协议等
  • 如何解决答题小程序大小超过2M的问题
  • C#使用ExcelDataReader高效读取excel文件写入数据库
  • 华为云Flexus+DeepSeek征文|基于华为云一键部署 Dify 应用的性能测试实践:构建聊天应用并使用 JMeter做压力测试
  • HarmonyOS5 运动健康app(一):健康饮食(附代码)
  • 苹果获智能钱包专利,Find My生态版图或再扩张:钱包会“说话”还能防丢
  • 【论文阅读笔记】ICLR 2025 | 解析Ref-Gaussian如何实现高质量可交互反射渲染
  • pom文件引用外部jar依赖
  • Web开发实战:Gin + GORM 构建企业级 API 项目
  • 使用 C/C++ 和 OpenCV 判断是否抬头
  • Spring 事务传播行为详解
  • 自己的服务器被 DDOS跟CC攻击了怎么处理,如何抵御攻击?
  • 公司内网远程访问配置教程:本地服务器(和指定端口应用)实现外网连接使用
  • 29-Oracle 23ai Flashback Log Placement(闪回日志灵活配置)
  • 进程控制
  • Trae Builder 模式:从需求到全栈项目的端到端实践
  • 书写时垂直笔画比水平笔画表现更好的心理机制分析