当前位置: 首页 > news >正文

突破同步训练瓶颈!AReaL如何实现大规模异步强化学习系统的高效语言推理?

突破同步训练瓶颈!AReaL如何实现大规模异步强化学习系统的高效语言推理?

在大语言模型(LLM)借助强化学习(RL)提升推理能力的浪潮中,训练效率成为关键挑战。本文介绍的AReaL系统,通过完全解耦生成与训练的异步设计,在数学和代码推理任务上实现高达2.77倍的训练加速,同时性能不减反增,为大规模RL训练开辟了新路径。

论文标题

AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

来源
arXiv:2505.24298v2 [cs.LG] + https://arxiv.org/abs/2505.24298

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

强化学习(RL)已成为提升大语言模型(LLM)推理能力的关键范式,通过生成“思维令牌”(thinking tokens)助力模型在数学、代码等复杂推理任务中表现显著提升。高效RL训练依赖大规模并行化以获取充足探索数据,但现有大规模RL系统多采用同步设计——生成阶段需等待批次中最长输出完成才能更新模型,导致GPU资源因输出长度差异而严重浪费。此外,经典RL算法要求“同策略”训练数据(最新模型生成),进一步加剧系统设计挑战。针对长序列推理任务(如32K令牌生成),同步系统的动态负载失衡问题尤为突出,亟需更高效的异步训练框架。

研究问题

  1. 同步训练的效率瓶颈:现有LLM的大规模RL系统多为同步设计,生成阶段需等待批次中最长输出完成才能更新模型,导致GPU利用率低下。

  2. 数据陈旧性挑战:异步训练中不同模型版本生成的数据存在分布差异,可能导致训练不稳定,而传统算法难以有效处理陈旧数据。

  3. 动态工作负载管理:推理模型输出长度差异大,同步系统无法灵活应对动态变化的生成和训练负载,导致资源浪费。

主要贡献

1. 全异步系统架构:首次提出完全解耦生成与训练的AReaL系统,rollout workers持续流式输出,train workers实时获取批次数据更新模型,相较同步系统实现最高2.77倍训练加速。

2. 算法-系统协同设计:引入最大允许陈旧性参数 η η η控制数据陈旧度,动态调整生成请求速率; 提出解耦的PPO目标函数,将行为策略与近端策略分离,允许使用更陈旧数据且不影响性能。

3. 系统级优化创新:可中断生成工作器,动态终止长序列生成以平衡批次数据;动态微批次分配算法,优化变长序列的内存利用率,提升30%训练吞吐量。

4. 性能与效率双提升:在32B参数模型上,AReaL实现线性扩展效率(至512 GPU),且数学推理任务准确率较同步基线提高1.1%-2.3%。

方法论精要

核心框架设计

AReaL采用“生成-训练解耦”架构,包含四大组件:

  • 可中断生成工作器:持续生成序列,遇模型更新时中断并加载新权重;
  • 奖励服务:评估生成结果正确性(如代码执行测试);
  • 训练工作器:从回放缓冲区采样数据,达到批次大小后执行PPO更新;
  • 生成控制器:协调数据流向,控制生成请求速率以管理陈旧度。

在AReaL系统中,Rollout Controller扮演着生成-训练流程的“中枢神经”角色。它一方面从数据集读取输入prompt并触发Rollout Worker的生成请求,将返回的推理轨迹发送至Reward Service计算正确性奖励;另一方面,当Trainer Worker完成模型参数更新后,Controller会主动推送新权重至所有生成节点,中断并重启正在进行的推理过程。这种设计形成了闭环异步流水线:生成节点持续产出轨迹,训练节点实时消费数据更新模型,而Controller通过动态调度确保两者的工作负载平衡。如图3所示,该机制彻底打破了同步系统中“生成-等待-训练”的僵化循环,实现了GPU资源的持续满负荷利用。

关键参数原理:应对异步训练

陈旧度感知训练机制

为解决异步训练中数据陈旧性导致的分布偏移问题,AReaL引入超参数 η η η控制训练批次的最大允许陈旧度。通过公式 ⌊ N r / B ⌋ ≤ i + η ⌊N_r/B⌋ ≤ i + η Nr/Bi+η,系统动态限制生成轨迹的策略版本与当前训练策略的差异——当 η = 0 η=0 η=0时退化为同步训练, η = 1 η=1 η=1时等效于传统one-step overlap方法。

实际训练中,Rollout Controller会优先调度历史轨迹,并拒绝违反陈旧度约束的生成请求。不过过小的 η η η可能限制长序列生成的吞吐量,因此AReaL结合解耦PPO算法,实现陈旧数据的高效利用。

解耦PPO目标函数

AReaL将行为策略 π b e h a v π_{behav} πbehav与近端策略 π p r o x π_{prox} πprox分离,通过重要性采样重构PPO目标函数:

其中 u t p r o x ( θ ) = π θ ( a t ∣ s t ) π p r o x ( a t ∣ s t ) u_t^{prox}(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{prox}(a_t|s_t)} utprox(θ)=πprox(atst)πθ(atst)为近端策略重要性比率。该设计将模型更新约束在高质量 π p r o x π_{prox} πprox的信任域内,避免陈旧策略拖慢优化进程。理论上,即使轨迹由多版本策略生成,也可等效为单一行为策略采样。实际实现中,直接使用更新前的模型参数作为 π p r o x π_{prox} πprox,避免了大规模模型的指数移动平均计算开销。

创新性技术组合

  • 流式生成与动态中断:生成工作器无需等待批次完成,新模型权重到达时中断当前生成,避免长序列阻塞;
  • 无填充序列打包:结合动态分配算法,在固定内存约束下平衡微批次的令牌分布,减少前向-反向传播次数;
  • 并行奖励服务:通过多线程异步处理奖励计算(如数学答案匹配、代码单元测试),重叠CPU与GPU操作。

实验验证设计

数据集:数学推理(AIME24、MATH 500)、代码生成(LiveCodeBench);

基线方法:同步系统VeRL、DeepScaleR、DeepCoder,以及AReaL的同步变体;

评估指标:训练吞吐量(令牌/秒)、最终任务准确率(如AIME24的pass@1)、线性扩展效率(至512 GPU)。

实验洞察

1. 性能优势

数学推理:32B模型在AIME24上准确率达61.0%,较同步基线VeRL提升3.6%,训练时间缩短33.7%;

代码生成:14B模型在LiveCodeBench上pass@1达58.1%,超越同步基线DeepCoder的57.9%,训练加速2.03倍。

2. 效率突破

吞吐量提升:在32B模型、32k上下文场景下,AReaL吞吐量达155k令牌/秒,是同步系统VeRL的2.5倍;

线性扩展性:使用512 GPU时,AReaL吞吐量接近线性增长(达241k令牌/秒),而同步系统因内存IO瓶颈无法扩展。

3. 消融研究

解耦PPO的有效性:当η=4时,使用解耦PPO的模型在AIME24上准确率达42.2%,较朴素PPO提升18.9%;

可中断生成的价值:中断机制使1.5B模型生成吞吐量提升12%,7B模型提升17%,避免长序列导致的GPU空闲;

动态批处理优势:相比标准微批次策略,动态分配使训练吞吐量平均提升30%,尤其在长序列场景下效果显著。

http://www.xdnf.cn/news/938701.html

相关文章:

  • 树的基本概念与操作:构建数据结构的层级世界
  • leetcode2368. 受限条件下可到达节点的数目-medium
  • JDK8新特性之Steam流
  • 手动实现C#ArrayList容器
  • Boost ASIO 库深入学习(2)
  • Redis持久化策略:RDB与AOF详解
  • shell脚本 --案例实操
  • cognee,有望替代 RAG, 简单了解一下
  • 服务网格技术深度解析:Istio vs Linkerd的选型对比
  • 【Self-Ask with Search Agent机制概述】利用TavilyAnswer实现搜索代理
  • 【文件传输脚本】
  • XSS攻击防御全指南:核心防护技巧
  • UVM的断言assert详谈
  • 【GESP真题解析】第 17 集 GESP 三级 2024 年 12 月编程题 2:打印数字
  • Linux 基础IO(下)
  • Linux 内核内存管理子系统全面解析与体系构建
  • 基于cornerstone3D的dicom影像浏览器 第三十章 心胸比例测量工具CTRTool
  • 深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙
  • 隐函数 因变量确定标准
  • 《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (三)数据格式
  • (LeetCode 动态规划(基础版))96. 不同的二叉搜索树 (递推 || 递归)
  • 自定义连接线程池
  • 【Erdas实验教程】016:遥感图像空间增强(卷积增强)
  • 01.SQL语言概述
  • 华为OD机考- 简单的自动曝光/平均像素
  • (每日一道算法题)验证二叉搜索树
  • 随机算法一文深度全解
  • Dify 工作流全解:模块组成、设计思路与DSL实战指南
  • 【ROS2】核心概念8——参数设置(Parameters)
  • 商家平台AI智能搜索工程实践|RAG|向量检索增强