当前位置：首页 > news >正文

突破同步训练瓶颈！AReaL如何实现大规模异步强化学习系统的高效语言推理？

news 2025/6/9 8:27:22

突破同步训练瓶颈！AReaL如何实现大规模异步强化学习系统的高效语言推理？

在大语言模型（LLM）借助强化学习（RL）提升推理能力的浪潮中，训练效率成为关键挑战。本文介绍的AReaL系统，通过完全解耦生成与训练的异步设计，在数学和代码推理任务上实现高达2.77倍的训练加速，同时性能不减反增，为大规模RL训练开辟了新路径。

论文标题

AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

来源
arXiv:2505.24298v2 [cs.LG] + https://arxiv.org/abs/2505.24298

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「亚里随笔」即刻免费解锁

文章核心

研究背景

强化学习（RL）已成为提升大语言模型（LLM）推理能力的关键范式，通过生成“思维令牌”（thinking tokens）助力模型在数学、代码等复杂推理任务中表现显著提升。高效RL训练依赖大规模并行化以获取充足探索数据，但现有大规模RL系统多采用同步设计——生成阶段需等待批次中最长输出完成才能更新模型，导致GPU资源因输出长度差异而严重浪费。此外，经典RL算法要求“同策略”训练数据（最新模型生成），进一步加剧系统设计挑战。针对长序列推理任务（如32K令牌生成），同步系统的动态负载失衡问题尤为突出，亟需更高效的异步训练框架。

研究问题

同步训练的效率瓶颈：现有LLM的大规模RL系统多为同步设计，生成阶段需等待批次中最长输出完成才能更新模型，导致GPU利用率低下。
数据陈旧性挑战：异步训练中不同模型版本生成的数据存在分布差异，可能导致训练不稳定，而传统算法难以有效处理陈旧数据。
动态工作负载管理：推理模型输出长度差异大，同步系统无法灵活应对动态变化的生成和训练负载，导致资源浪费。

主要贡献

1. 全异步系统架构：首次提出完全解耦生成与训练的AReaL系统，rollout workers持续流式输出，train workers实时获取批次数据更新模型，相较同步系统实现最高2.77倍训练加速。

2. 算法-系统协同设计：引入最大允许陈旧性参数 $η$ 控制数据陈旧度，动态调整生成请求速率；提出解耦的PPO目标函数，将行为策略与近端策略分离，允许使用更陈旧数据且不影响性能。

3. 系统级优化创新：可中断生成工作器，动态终止长序列生成以平衡批次数据；动态微批次分配算法，优化变长序列的内存利用率，提升30%训练吞吐量。

4. 性能与效率双提升：在32B参数模型上，AReaL实现线性扩展效率（至512 GPU），且数学推理任务准确率较同步基线提高1.1%-2.3%。

方法论精要

核心框架设计

AReaL采用“生成-训练解耦”架构，包含四大组件：

可中断生成工作器：持续生成序列，遇模型更新时中断并加载新权重；
奖励服务：评估生成结果正确性（如代码执行测试）；
训练工作器：从回放缓冲区采样数据，达到批次大小后执行PPO更新；
生成控制器：协调数据流向，控制生成请求速率以管理陈旧度。

在AReaL系统中，Rollout Controller扮演着生成-训练流程的“中枢神经”角色。它一方面从数据集读取输入prompt并触发Rollout Worker的生成请求，将返回的推理轨迹发送至Reward Service计算正确性奖励；另一方面，当Trainer Worker完成模型参数更新后，Controller会主动推送新权重至所有生成节点，中断并重启正在进行的推理过程。这种设计形成了闭环异步流水线：生成节点持续产出轨迹，训练节点实时消费数据更新模型，而Controller通过动态调度确保两者的工作负载平衡。如图3所示，该机制彻底打破了同步系统中“生成-等待-训练”的僵化循环，实现了GPU资源的持续满负荷利用。

关键参数原理：应对异步训练

陈旧度感知训练机制

为解决异步训练中数据陈旧性导致的分布偏移问题，AReaL引入超参数 $η$ 控制训练批次的最大允许陈旧度。通过公式 $N_r/B⌋ ≤ i + η$ ，系统动态限制生成轨迹的策略版本与当前训练策略的差异——当 $η = 0$ 时退化为同步训练， $η = 1$ 时等效于传统one-step overlap方法。

实际训练中，Rollout Controller会优先调度历史轨迹，并拒绝违反陈旧度约束的生成请求。不过过小的 $η$ 可能限制长序列生成的吞吐量，因此AReaL结合解耦PPO算法，实现陈旧数据的高效利用。

解耦PPO目标函数

AReaL将行为策略 $π_{behav}$ 与近端策略 $π_{prox}$ 分离，通过重要性采样重构PPO目标函数：

其中 $u_t^{prox}(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{prox}(a_t|s_t)}$ 为近端策略重要性比率。该设计将模型更新约束在高质量 $π_{prox}$ 的信任域内，避免陈旧策略拖慢优化进程。理论上，即使轨迹由多版本策略生成，也可等效为单一行为策略采样。实际实现中，直接使用更新前的模型参数作为 $π_{prox}$ ，避免了大规模模型的指数移动平均计算开销。