当前位置: 首页 > backend >正文

大语言模型推理能力的强化学习现状理解GRPO与近期推理模型研究的新见解

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

【本周AI新闻: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登场】 https://www.bilibili.com/video/BV1M55WzwETw/

本月发布了多个旗舰模型,包括GPT-4.5与Llama 4,引起了业界广泛关注。但与以往相比,这些新模型的市场反应相对冷淡。其中一个重要原因在于,这两款模型仍采用传统训练方式,未显著加强推理能力,尤其未采用强化学习方法对推理进行专门训练。

与此同时,其他公司如xAI与Anthropic则在其模型中引入了更多推理功能。例如,xAI的Grok与Anthropic的Claude平台已为部分模型加入“思考模式”按钮,用以激活推理能力。

因此,市场对GPT-4.5与Llama 4反应平淡,或许反映出模型规模和数据量的扩大已逐渐接近效果瓶颈。相比之下,OpenAI新发布的o3推理模型则显示出若将计算资源有策略地投入于推理强化训练中,模型性能仍可显著提升。据OpenAI员工在4月16日的直播中透露,o3训练所耗计算资源是o1的10倍。

尽管推理并非万能解法,但目前为止,它确实稳定提升了模型在复杂任务中的准确率与问题解决能力。因此,未来LLM训练流程中很可能将推理导向的后训练机制作为标准。

本文将深入探讨用于发展与改进推理模型的强化学习方法。


目录概览:

  1. 理解推理模型

  2. RLHF基础:强化学习从何而来

  3. PPO简介:RL的主力算法

  4. RL算法演化:从PPO到GRPO

  5. 奖励建模方式:从RLHF到RLVR

  6. DeepSeek-R1模型训练过程

  7. RL推理模型训练相关论文经验总结

  8. 值得关注的研究论文汇总

(提示:如读者已熟悉RL基础、PPO与GRPO概念,可直接跳转至“RL推理模型训练相关论文经验总结”部分)


理解推理模型

所谓“推理”,指的是大型语言模型在处理复杂任务时,进行逻辑推断与中间步骤生成的能力。具体而言,当前主流方式是“思维链”或“链式思考”(CoT),即模型在给出最终答案前,会先输出多个有逻辑结构的中间步骤,展现其思考路径。

例如,当模型面对一道多步数学题时,不再仅仅凭记忆给出结果,而是通过一系列计算步骤逐步推导至正确答案。这些中间步骤视实际应用场景可能显示给用户,也可能隐藏于系统内部。

此前的研究显示,提升推理能力通常有两种路径:一是增加训练阶段的计算资源,二是在推理阶段(即推断时)增加计算资源。前者强调模型本身的训练方法,后者则偏重运行时优化。本文主要关注前者,即如何通过强化学习改善训练过程,从而提高模型的推理能力。


RLHF基础回顾

LLM在对齐人类偏好方面,最初使用的是强化学习结合人类反馈(RLHF)的方法。RLHF的流程包括三个阶段:

  1. 监督微调(SFT):使用高质量人工答案对预训练模型进行微调;

  2. 奖励模型训练:由人工对多个答案进行排序,用以训练一个回归型奖励模型;

  3. 强化学习阶段:使用PPO算法基于奖励模型进行策略优化。

PPO(Proximal Policy Optimization)是一种主流的策略优化算法,其核心是限制策略每次更新的变化范围,以避免模型不稳定。该方法结合KL散度惩罚项与熵奖励,引导模型平衡“探索”与“保守”。


从PPO到GRPO

DeepSeek团队在开发R1模型时并未继续使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代传统的价值评估模型(Critic)。GRPO通过比较来自同一策略模型的多个答案,基于其相对优劣来评估“优势值”,从而省去了价值模型这一资源密集型组件。此方法在提升数学推理能力的同时,还显著优化了计算资源效率。


从RLHF到RLVR:奖励建模演化

在标准RLHF中,奖励模型由人类偏好训练得出。而DeepSeek-R1则采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用确定性工具(如计算器、编译器)对模型输出进行正确性验证,取代了人类标注的奖励信号,从而提高训练效率并避免“奖励黑客”(Reward Hacking)问题。


DeepSeek-R1推理模型的训练流程

DeepSeek-R1系列包括三类模型:

  1. R1-Zero:完全使用RLVR训练,不经过监督微调;

  2. R1:结合监督微调与RLHF、RLVR交替训练;

  3. R1-Distill:基于R1输出生成指令数据,对较小模型(如LLaMA 3、Qwen 2.5)进行微调,但未使用RL。

训练过程采用了两种奖励:

  • 准确性奖励:输出是否符合格式并计算正确;

  • 格式奖励:要求推理过程必须包裹在 <think></think> 标签中,确保推理结构清晰。


近期论文中关于训练推理模型的经验总结

以下为近期15篇论文中提取的关键见解:

  1. 强化学习显著提升了小模型的推理能力
    尤其是将RL用于已经通过知识蒸馏获得初步推理能力的小模型,进一步提升表现。小模型用少量数据与极低计算成本便可超越一些大模型。

  2. 生成冗长错误答案的问题
    多篇论文指出PPO与GRPO都存在偏好长文本的倾向,特别是在错误输出时。为解决此问题,研究者提出了如“Dr.GRPO”与LCPO等改进算法,引入长度惩罚与精细化奖励结构以控制输出长度。

  3. 强化学习引发的推理行为
    如DeepSeek-R1中的“AHA时刻”并非手动设计,而是模型在训练中自发学会了验证与反思行为。

  4. 推理能力的跨领域泛化
    通过逻辑谜题训练获得的模型,在数学与编程任务中也表现出色,表明推理能力可以不依赖具体领域知识泛化。

  5. 向更广泛领域扩展
    如医学、心理学、教育等非结构化任务中,也能通过生成式评分机制引入可验证奖励,从而实现强化学习训练。

  6. 推理能力并非仅由RL驱动
    有研究指出,链式思考能力可能在预训练阶段就已自然涌现。即使不进行强化学习,一些基础模型(如Qwen2.5)也展现出“反思”与“自我修正”的倾向。这说明推理能力的形成可能是多因素共同作用的结果。


总结

当前推理模型的研究与训练正快速向更高效率、更广适应性的方向发展。强化学习,尤其是结合可验证奖励(RLVR)与相对策略优化(GRPO)的方法,正逐步替代传统的PPO与奖励模型。同时,研究者也在积极探索如何控制响应长度、提升泛化能力与引入外部工具,以推动推理能力的实际落地。

值得关注的下一步,将是推理模型与检索增强生成(RAG)与工具使用能力的深度结合。OpenAI最新的o3模型已展现出这种趋势,预示推理型大模型正逐步走向实用阶段。

http://www.xdnf.cn/news/689.html

相关文章:

  • PG CTE 递归 SQL 翻译为 达梦版本
  • 将 JSON 字符串转化为对象的详细笔记 (Java示例)
  • 【AI量化第26篇】以配置为核心的工程化研究管理——基于miniQMT的量化交易回测系统开发实记
  • 15. 三数之和
  • 计算机网络中的网络层:架构、功能与重要性
  • llama factory
  • springboot+vue3+mysql+websocket实现的即时通讯软件
  • C++数组栈与链表栈
  • 软考高级系统架构设计师-第16章 数学与经济管理
  • 切换 Python 版本(配置path方式,含trae)
  • 一个最简单的 Model Context Protocol 的例子
  • Halcon应用:相机标定
  • C++入门篇(下)
  • 线性DP:最长上升子序列(可不连续,数组必须连续)
  • Matlab 复合模糊PID
  • NumPy:数值计算基础与高性能数组操作
  • 如何使用人工智能大模型,免费快速写工作总结?
  • Linux基础指令 补充(自用)
  • 【微知】服务器如何获取服务器的SN序列号信息?(dmidecode -t 1)
  • Origin将双Y轴柱状图升级为双向分组柱状图
  • 二、在springboot 中使用 AIService
  • 【JAVA EE初阶】多线程(1)
  • 代码随想录算法训练营第五十三天 | 105.有向图的完全可达性 106.岛屿的周长
  • 如何轻松实现用户充值系统的API自动化测试
  • QML、Qt Quick 、Qt Quick Controls 2
  • 如何成为Prompt工程师:学习路径、核心技能与职业发展
  • STM32时钟树
  • 微信小程序中使用h5页面预览图片、视频、pdf文件
  • PHP伪协议读取文件
  • Matlab 步进电机传递函数模糊pid