微软:LLM多阶段强化学习框架
📖标题:rStar2-Agent: Agentic Reasoning Technical Report
🌐来源:arXiv, 2508.20722
🌟摘要
我们引入了 rStar2-Agent,这是一种使用代理强化学习训练的 14B 数学推理模型,以实现边界级性能。除了当前的长 CoT 之外,该模型还展示了高级认知行为,例如在使用 Python 编码工具之前仔细思考并反思代码执行反馈,以自主探索、验证和细化复杂问题解决中的中间步骤。这种能力是通过三个关键创新实现的,使代理RL大规模有效:(i)一个有效的RL基础设施,具有可靠的Python代码环境,支持高吞吐量执行,并减轻高推出成本,从而能够在有限的GPU资源(64个MI300X GPU)上进行训练;(ii)GRPO-RoC,这是一种代理RL算法,具有从编码工具中解决固有环境噪声的响应策略,允许模型在代码环境中更有效地进行推理;(iii)一个有效的代理训练方法,从非推理SFT开始,并通过多RL阶段进行,以最小的计算成本产生先进的认知能力。为此,rStar2-Agent 在一周内仅 510 个 RL 步骤中将预训练的 14B 模型提升到最先进的水平,在 AIME24 上达到 80.6% 的平均 pass@1 分数,在 AIME25 上达到 69.8%,超过 DeepSeek-R1 (671B),响应明显更短。除了数学之外,rStar2-Agent-14B 还展示了对对齐、科学推理和代理工具使用任务的强大泛化。代码和思路可在 https://github.com/microsoft/rStar 获得。
🛎️文章简介
🔸研究问题:如何通过自主工具使用和反馈学习提高大语言模型(LLM)的推理能力?
🔸主要贡献:论文提出了rStar2-Agent模型,通过多阶段的强化学习框架显著提升了数学推理性能,使得一个14B参数的模型在多个基准上超越了更大规模的模型。
📝重点思路
🔸引入了面向工具的强化学习方法(agentic reinforcement learning),在Python编码环境中进行训练,提升了模型的推理能力。
🔸采用非推理的SFT训练阶段,初步建立指令跟随和工具使用能力,避免了推理重训练时的过拟合。
🔸设计了高效的RL基础设施,包括动态负载平衡的回合调度器,以提高计算效率并减少资源占用。
🔸进行了分阶段的RL训练,逐步增加任务的难度和训练长度,实现了快速的性能提升。
🔎分析总结
🔸rStar2-Agent-14B模型在多个数学推理基准(如AIME24)上达到80.6%的准确率,超越了其他领先模型。
🔸通过强化学习,模型能在较短的回复中实现更高的推理准确性,表明有效的工具使用提升了推理效率。
🔸实验显示,模型能够反思和自我纠正,利用来自工具环境的反馈提升推理能力,展现出新的认知行为模式。
🔸成功的RL训练策略(GRPO-RoC)表明,控制奖励设计简化能够促进更有效的探索和推理过程。
💡个人观点
论文通过自主使用工具和基于反馈的学习方法,提高了数学推理的准确性和更智能的推理机制。
🧩附录