当前位置：首页 > web >正文

微软：LLM多阶段强化学习框架

web 2025/9/4 17:27:59

在这里插入图片描述

📖标题：rStar2-Agent: Agentic Reasoning Technical Report
🌐来源：arXiv, 2508.20722

🌟摘要

我们引入了 rStar2-Agent，这是一种使用代理强化学习训练的 14B 数学推理模型，以实现边界级性能。除了当前的长 CoT 之外，该模型还展示了高级认知行为，例如在使用 Python 编码工具之前仔细思考并反思代码执行反馈，以自主探索、验证和细化复杂问题解决中的中间步骤。这种能力是通过三个关键创新实现的，使代理RL大规模有效:(i)一个有效的RL基础设施，具有可靠的Python代码环境，支持高吞吐量执行，并减轻高推出成本，从而能够在有限的GPU资源(64个MI300X GPU)上进行训练;(ii)GRPO-RoC，这是一种代理RL算法，具有从编码工具中解决固有环境噪声的响应策略，允许模型在代码环境中更有效地进行推理;(iii)一个有效的代理训练方法，从非推理SFT开始，并通过多RL阶段进行，以最小的计算成本产生先进的认知能力。为此，rStar2-Agent 在一周内仅 510 个 RL 步骤中将预训练的 14B 模型提升到最先进的水平，在 AIME24 上达到 80.6% 的平均 pass@1 分数，在 AIME25 上达到 69.8%，超过 DeepSeek-R1 (671B)，响应明显更短。除了数学之外，rStar2-Agent-14B 还展示了对对齐、科学推理和代理工具使用任务的强大泛化。代码和思路可在 https://github.com/microsoft/rStar 获得。

🛎️文章简介

🔸研究问题：如何通过自主工具使用和反馈学习提高大语言模型（LLM）的推理能力？
🔸主要贡献：论文提出了rStar2-Agent模型，通过多阶段的强化学习框架显著提升了数学推理性能，使得一个14B参数的模型在多个基准上超越了更大规模的模型。

📝重点思路

🔸引入了面向工具的强化学习方法（agentic reinforcement learning），在Python编码环境中进行训练，提升了模型的推理能力。
🔸采用非推理的SFT训练阶段，初步建立指令跟随和工具使用能力，避免了推理重训练时的过拟合。
🔸设计了高效的RL基础设施，包括动态负载平衡的回合调度器，以提高计算效率并减少资源占用。
🔸进行了分阶段的RL训练，逐步增加任务的难度和训练长度，实现了快速的性能提升。

🔎分析总结

🔸rStar2-Agent-14B模型在多个数学推理基准（如AIME24）上达到80.6%的准确率，超越了其他领先模型。
🔸通过强化学习，模型能在较短的回复中实现更高的推理准确性，表明有效的工具使用提升了推理效率。
🔸实验显示，模型能够反思和自我纠正，利用来自工具环境的反馈提升推理能力，展现出新的认知行为模式。
🔸成功的RL训练策略（GRPO-RoC）表明，控制奖励设计简化能够促进更有效的探索和推理过程。