当前位置: 首页 > backend >正文

如何通过RL真正提升大模型的推理能力?NVIDIA提出长期强化学习训练框架ProRL

原文:https://mp.weixin.qq.com/s/QLFKvb8Ol3CX9uWKBXSrow

论文:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
Abs:https://arxiv.org/abs/2505.24864
权重下载:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

最近LLM + RL的研究越来越火,但关于“RL是否真的能提升模型的推理能力”这一问题,社区仍存在不少争议。一些研究指出,RL只是在让模型变得更会“猜答案”,而非真正学会新能力。

我们认为这些质疑可能来自两个“隐藏问题”:

  • 太多研究只在数学领域做实验,而这类任务基础模型早就见过,根本没有探索新能力的空间;
  • RL训练都太短了——几百步就停止,模型还没开始“发掘潜能”就被叫停了。

因此,我们认为应该在更加多样的任务上做更加长期的强化学习训练。然而,让模型在强化学习中实现长期且稳定的训练并不容易。传统方法常常面临梯度爆炸或训练坍塌等问题。为此,我们将 模型的 entropy(熵) 作为衡量训练健康程度的关键指标。Entropy 反映了模型在探索与利用之间的平衡能力,也代表了模型对问题理解的深度

训练过程中,我们力求保持 entropy 在一个合理且稳定的区间:过高的 entropy 意味着模型在做出决策时过于随机,缺乏有效判断;过低的 entropy 则表明模型可能陷入某个解法,失去了进一步探索的能力

通过持续监控并调控 entropy,我们有效促进了 RL 训练的稳定性和推理能力的提升。在此基础上,我们提出了ProRL(Prolonged Reinforcement Learning),一个长期强化学习训练框架,核心包括:

  • KL控制(保持模型不跑偏)
  • 参考策略重置(防止陷入局部最优)
  • 多样化任务集合(激发模型学习不同推理策略)

我们基于 DeepSeek-Distilled-Qwen-1.5B,训练了一个专注于推理能力的模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,在数学/编程/逻辑题/STEM推理/任务指令理解等多个领域展现出显著提升。

在这里插入图片描述

更关键的是:

我们发现 RL 模型能解出 base model 无论怎么 sampling 都完全答不出的题,甚至做到 pass rate 100%。这不是随机波动,而是新能力的诞生

我们还用 Creativity Index 量化了“新解法”的创意程度,发现训练越久,模型“跳出预训练语料”的能力越强,推理路径越来越有创造性

在这里插入图片描述

此外,强化学习的效果与基础模型的初始表现呈负相关关系:初始 pass@k 较低的任务,在推理边界扩展方面的提升最大;而在诸如数学和代码等高表现领域(其创造力指数较低),推理边界的扩展则较为有限。对于改善幅度较小的任务(即图中显示为“Diminished Area”的部分),基础模型通常具有较低的创造力指数,这表明这些任务可能已在预训练数据中得到了充分覆盖,因此在推理边界上的扩展潜力有限。

在这里插入图片描述

我们希望这项工作为“如何通过RL真正提升大模型的推理能力”提供一个新的思考方向,欢迎大家交流!

http://www.xdnf.cn/news/11955.html

相关文章:

  • Learning a Discriminative Prior for Blind Image Deblurring论文阅读
  • nest实现前端图形校验
  • Linux磁盘管理 - RAID
  • macOS 上使用 Homebrew 安装redis-cli
  • 我们来学zookeeper -- 集群搭建
  • Monorepo架构: 项目管理模式对比与考量
  • 详解ZYNQ中的 RC 和 EP
  • 解决idea编译运行项目时间长的问题
  • 深入理解C#中的Web API:构建现代化HTTP服务的完整指南
  • Redis 集群批量删除key报错 CROSSSLOT Keys in request don‘t hash to the same slot
  • leetcode删除排序链表中的重复元素-小白初学简单解说
  • JavaScript 深入探索:高级应用与前沿技术
  • 佰力博科技与您探讨半导体电阻测试的基本原理
  • 数据分析之OLTP vs OLAP
  • 乘用车自动驾驶和非乘用车(矿车,卡车)自动驾驶区别
  • 机器学习基础(三) 逻辑回归
  • vue3+elementplus表格表头加图标及文字提示
  • SpringBoot-15-多表查询之多对多查询可选中间表
  • 经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
  • SAP学习笔记 - 开发22 - 前端Fiori开发 数据绑定(Jason),Data Types(数据类型)
  • Doris查询Hive数据:实现高效跨数据源分析的实践指南
  • 机器翻译模型笔记
  • go语言的锁
  • React与原生事件:核心差异与性能对比解析
  • Java时间API终极指南
  • C++11 中 auto 和 decltype 的深入解析
  • DeepSeek本地部署及WebUI可视化教程
  • 豆瓣图书评论数据分析与可视化
  • CentOS在vmware局域网内搭建DHCP服务器【踩坑记录】
  • 2025年- H66-Lc174--215.数组中的第k个最大元素(小根堆,堆顶元素是当前堆元素里面最小的)--Java版