当前位置: 首页 > web >正文

微软:LLM多阶段强化学习框架

在这里插入图片描述

📖标题:rStar2-Agent: Agentic Reasoning Technical Report
🌐来源:arXiv, 2508.20722

🌟摘要

我们引入了 rStar2-Agent,这是一种使用代理强化学习训练的 14B 数学推理模型,以实现边界级性能。除了当前的长 CoT 之外,该模型还展示了高级认知行为,例如在使用 Python 编码工具之前仔细思考并反思代码执行反馈,以自主探索、验证和细化复杂问题解决中的中间步骤。这种能力是通过三个关键创新实现的,使代理RL大规模有效:(i)一个有效的RL基础设施,具有可靠的Python代码环境,支持高吞吐量执行,并减轻高推出成本,从而能够在有限的GPU资源(64个MI300X GPU)上进行训练;(ii)GRPO-RoC,这是一种代理RL算法,具有从编码工具中解决固有环境噪声的响应策略,允许模型在代码环境中更有效地进行推理;(iii)一个有效的代理训练方法,从非推理SFT开始,并通过多RL阶段进行,以最小的计算成本产生先进的认知能力。为此,rStar2-Agent 在一周内仅 510 个 RL 步骤中将预训练的 14B 模型提升到最先进的水平,在 AIME24 上达到 80.6% 的平均 pass@1 分数,在 AIME25 上达到 69.8%,超过 DeepSeek-R1 (671B),响应明显更短。除了数学之外,rStar2-Agent-14B 还展示了对对齐、科学推理和代理工具使用任务的强大泛化。代码和思路可在 https://github.com/microsoft/rStar 获得。

🛎️文章简介

🔸研究问题:如何通过自主工具使用和反馈学习提高大语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了rStar2-Agent模型,通过多阶段的强化学习框架显著提升了数学推理性能,使得一个14B参数的模型在多个基准上超越了更大规模的模型。

📝重点思路

🔸引入了面向工具的强化学习方法(agentic reinforcement learning),在Python编码环境中进行训练,提升了模型的推理能力。
🔸采用非推理的SFT训练阶段,初步建立指令跟随和工具使用能力,避免了推理重训练时的过拟合。
🔸设计了高效的RL基础设施,包括动态负载平衡的回合调度器,以提高计算效率并减少资源占用。
🔸进行了分阶段的RL训练,逐步增加任务的难度和训练长度,实现了快速的性能提升。

🔎分析总结

🔸rStar2-Agent-14B模型在多个数学推理基准(如AIME24)上达到80.6%的准确率,超越了其他领先模型。
🔸通过强化学习,模型能在较短的回复中实现更高的推理准确性,表明有效的工具使用提升了推理效率。
🔸实验显示,模型能够反思和自我纠正,利用来自工具环境的反馈提升推理能力,展现出新的认知行为模式。
🔸成功的RL训练策略(GRPO-RoC)表明,控制奖励设计简化能够促进更有效的探索和推理过程。

💡个人观点

论文通过自主使用工具和基于反馈的学习方法,提高了数学推理的准确性和更智能的推理机制。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/19454.html

相关文章:

  • 深入探讨JavaScript性能瓶颈:我的优化实战与思考
  • mac Monterey 安装erlang23
  • 【数据分享】上市公司-创新投入、研发投入数据(2007-2022)
  • LeetCode 287.寻找重复数
  • 基于EcuBus-Pro实现LIN UDS升级
  • 动态规划2(c++)
  • 【工具类】ssh使用案例
  • (HR小科普)人才测评软件的功能和应用
  • CH59x CH58x 触摸按键应用开发实例讲解(二)
  • 【Zephyr炸裂知识系列】11_手撸内存泄露监测算法
  • Pomian语言处理器研发笔记(二):使用组合模式定义表示程序结构的语法树
  • Tiptrans转运 | 免费5国转运地址
  • Web网络开发 -- jQuery框架
  • REST-assured 接口测试编写指南
  • 【Canvas与戳记】蓝底黄面十六角Premium Quality戳记
  • 开发环境全面配置指南:语言环境与数据库工具
  • 基于单片机音乐喷泉/音乐流水灯/音乐播放器设计
  • 规律作息 + 养成好的习惯 + 考研倒计时 111 天 + 线面积分入门 1 下半部分
  • 【LeetCode - 每日1题】鲜花游戏
  • 2025年- H101-Lc209--1979.找出数组的最大公约数(gcd最大公约数)--Java版
  • 【物联网】MQTT(Message Queuing Telemetry Transport)是什么?
  • 深入解析 dex2oat:vdex、cdex、dex 格式转换全流程实战
  • RK3576开发板串口配置及使用
  • 使用 SVM(支持向量机)进行图像分类:从读取图像到训练与分类的完整流程
  • 深入解析Nginx常见模块2
  • 【SoC】【W800】基于W800的PWM实现
  • python pyqt5开发DoIP上位机【源码】
  • 合集:搭建wiki知识库
  • C++广度优先搜索
  • React Native基本用法