当前位置: 首页 > news >正文

RLᵛ_ Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

RLᵛ: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

在人工智能领域,大语言模型(LLM)的推理能力提升一直是研究热点。今天要解读的论文提出了一种全新的强化学习框架RLᵛ,通过融合推理与验证能力,为大模型的测试效率和泛化性能带来了突破性进展。这一成果不仅解决了传统强化学习方法的关键缺陷,更展现了统一化训练在提升模型综合能力上的巨大潜力。

论文标题

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

来源
arXiv:2505.04842 [cs.LG] + https://arxiv.org/abs/2505.04842

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

研究背景

在大语言模型(LLM)推理能力的强化学习(RL)优化中,主流方法(如 GRPO、VinePPO)为降低训练成本,普遍舍弃传统价值函数,转而依赖经验估计回报。这一 “去价值化” 策略虽提升了训练阶段的计算效率和内存利用率,却导致测试阶段丧失关键的内置验证能力—— 传统价值函数本可作为 “结果验证器” 评估推理链正确性,支撑并行采样(如 Best-of-N 投票)等计算扩展策略。这一策略虽然提升了训练效率,却导致模型在测试阶段缺乏内置的验证机制,难以利用并行采样等计算扩展策略优化推理结果。

研究问题

1. 测试阶段计算效率低下:缺少价值函数或验证器,无法通过并行采样(如Best-of-N投票)有效提升推理准确性。

2. 独立验证器的高成本:部署单独的验证模型会增加数据标注、计算资源和内存占用的负担。

3. 泛化能力受限:传统方法在跨难度(Easy-to-Hard)或跨领域(Out-of-Domain)任务中表现不足,难以应对复杂推理需求。

主要贡献

1. 统一化训练框架RLᵛ
首次提出在单一LLM中同时训练推理器(Reasoner)和生成式验证器(Generative Verifier),利用强化学习过程中产生的(问题-解-奖励)数据,通过联合优化RL目标与验证目标(如预测“是否正确”的下一个标记),实现“一次训练,双重能力”。与传统方法相比,无需额外模型或数据开销,验证能力提升的同时推理性能保持稳定。

2. 测试阶段计算效率的革命性提升

  • 并行采样效率:在MATH500数据集上,使用加权投票策略时,RLᵛ相比基线方法(如GRPO)的计算效率提升8-32倍,准确率提高超20%。
  • 动态序列长度优化:通过设定验证置信度阈值,模型可自动为难题分配更长的推理序列,在AIME’24数据集上实现计算预算内的准确率最大化。

3. 跨场景泛化能力突破

  • 难度泛化:在MATH²(更复杂数学问题)上,RLᵛ的成功率比基线方法高10%以上。
  • 领域泛化:在GPQA物理问题(跨领域任务)中,准确率提升超10%,证明其验证机制具有通用性。

4. 长推理模型的互补性增强
与长思维链模型(如R1-Distill-Qwen-1.5B)结合时,RLᵛ在并行+序列计算联合扩展场景下,性能比基线方法高1.2-1.6倍,验证了其与现有技术的兼容性。

方法论精要

1. 核心框架:RLᵛ的统一训练机制

  • 训练阶段
    LLM同时作为策略网络(生成推理链)和验证器(预测解的正确性)。利用RL生成的解及其正确性标签(由奖励函数提供),通过监督微调(SFT)训练验证器,目标为最大化预测“是/否”标签的似然性。

统一目标函数

J Unified ( θ ) = J RL ( θ ; x ) + λ J Verify ( θ ; x ) \mathcal{J}_{\text{Unified}}(\theta) = \mathcal{J}_{\text{RL}}(\theta; x) + \lambda \mathcal{J}_{\text{Verify}}(\theta; x) JUnified(θ)=JRL(θ;x)+λJVerify(θ;x)

其中, J RL \mathcal{J}_{\text{RL}} JRL为强化学习目标, J Verify \mathcal{J}_{\text{Verify}} JVerify为验证目标, λ \lambda λ平衡两者权重。

  • 测试阶段
    LLM生成N个候选解,同时作为验证器为每个解评分(“是”的概率),通过加权投票Best-of-N策略选择最终答案。例如,加权投票将同一答案的验证分数累加,选择最高分答案,显著优于无验证的多数投票基线。

2. 关键参数设计原理

  • 验证目标的形式
    将验证视为“下一个标记预测”任务,输入为(问题x,解y,提示“该解是否正确?回答是或否”),输出为“是/否”标记,避免引入额外分类头或回归层,降低结构复杂度。
  • 超参数平衡
    λ \lambda λ的取值影响推理与验证能力的权衡。实验表明,Leave-one-out PPOᵛ在 λ = 1 \lambda=1 λ=1时达到最佳平衡,推理准确率(Pass@1)与验证准确率(对正误解的区分能力)均保持高位,而GRPOᵛ因优化特性导致两者存在显著取舍。

3. 创新性技术组合

  • 数据复用
    直接利用RL训练中产生的解数据(无需额外标注),通过“生成-验证”闭环实现数据高效利用,避免独立验证器所需的大规模标注成本。
  • 轻量级验证
    验证过程与推理共享同一模型参数,无额外内存占用,推理时仅需一次前向传播即可同时获得解和验证分数,相比独立验证器节省约50%计算资源。
  1. 实验验证:数据集与基线选择
  • 数据集
    • 数学推理:MATH(训练)、MATH500、MATH²(难度泛化)、AIME’24(长序列推理)。
    • 跨领域:GPQA Physics(物理问题,测试领域泛化)。
  • 基线方法
    主流“无价值函数”RL方法,如GRPO、Leave-one-out PPO、VinePPO,对比时使用LLM-as-a-Judge(即直接提示基模型作为验证器)或独立验证器作为基线验证方案。

实验洞察

1. 性能优势:准确率与效率双提升

  • 并行采样效果
    在MATH500上,当使用64个并行样本时,RLᵛ(GRPOᵛ)的加权投票准确率达79.0%,远超基线GRPO的55.6%,且计算效率提升32倍(即达到相同准确率所需计算量仅为基线的1/32)。
  • 长序列推理
    在AIME’24数据集上,RLᵛ(GRPOᵛ)结合4096 token序列长度时,成功率比基线GRPO高15%,显示其在处理复杂推理时的优势。

2. 效率突破:计算资源的智能分配

  • 动态序列长度优化
    通过设定验证置信度阈值(如加权投票分数≥0.6),模型可自动为难题延长推理序列。例如,在AIME’24中,平均序列长度从1024 token增加到4096 token时,准确率从30%提升至40%,证明其按需分配计算资源的能力。
  • 模型规模扩展性
    当模型从1.5B扩展至7B时,RLᵛ的验证准确率在MATH500上从76%提升至82%,加权投票准确率提升约5%,表明其性能随模型规模增长而持续优化。

3. 消融研究:核心模块的必要性验证

  • 统一训练 vs. 独立验证器
    对比使用独立验证器(基于相同RL数据训练)和RLᵛ的统一验证器,两者验证准确率接近(约80% vs. 78%),但RLᵛ无需额外模型参数,内存占用减少50%以上。
  • 验证目标的形式
    对比二进制交叉熵(BCE)分类头、回归头和生成式验证(下一个标记预测),生成式验证在推理准确率(Pass@1)和验证准确率上均最优,表明利用LLM生成能力的有效性。

总结与展望

RLᵛ通过将推理与验证统一到单一LLM中,巧妙解决了传统强化学习方法在测试阶段的效率瓶颈,同时以近乎零成本增强了模型的泛化能力。其核心价值在于数据与计算资源的高效复用,为未来大模型的轻量化部署和复杂推理任务提供了新方向。

值得关注的是,论文提出的动态计算分配机制(如基于置信度的序列长度调整)为长上下文模型(如32K token模型)的优化提供了思路——通过验证器实时评估推理进度,可避免无效的长序列生成,进一步提升计算效率。

未来研究方向可能包括:

  1. 扩展验证器以生成思维链解释(而非简单“是/否”判断),增强可解释性;
  2. 探索RLᵛ在代码生成、科学推理等更广泛领域的应用;
  3. 与更先进的并行采样策略(如蒙特卡洛树搜索)结合,进一步提升复杂任务的推理能力。
http://www.xdnf.cn/news/530731.html

相关文章:

  • 【TTS回顾】Bert-VITS2深度解析:融合BERT的多语言语音合成模型
  • 详细总结和讲解redis的基本命令
  • JavaScript 性能优化实战指南
  • Unity3D HUD UI性能优化方案
  • 卓力达手撕垫片:精密制造的创新解决方案与多领域应用
  • Unreal Engine: Windows 下打包 AirSim项目 为 Linux 平台项目
  • 【成品设计】STM32和UCOS-II的项目
  • 软考教材重点内容 信息安全工程师 25章 移动安全 26章 大数据安全
  • Flask 与 Django 服务器部署
  • 【成品设计】基于STM32的的宠物看护系统
  • 论文阅读--Logical quantum processor based on reconfigurable atom arrays
  • ModbusTCP转 Profinet网关:热收缩包装机智能化改造核心方案
  • 深入理解 Redisson 看门狗机制:保障分布式锁自动续期
  • chirpstack v4版本 全流程部署[ubuntu+docker]
  • Linux 移植 Docker 详解
  • LeetCode 925. 长按键入 java题解
  • MIME类型详解及应用案例
  • JVM频繁FullGC:面试通关“三部曲”心法
  • 力扣992做题笔记
  • P2P最佳网络类型
  • YOLO11解决方案之实例分割与跟踪探索
  • 2025.05.01【Barplot】柱状图的多样性绘制
  • 【图像大模型】FLUX.1-dev:深度解析与实战指南
  • 五分钟本地部署大模型
  • stata入门学习笔记——导入数据
  • 二元Logistic回归
  • 如何批量提取图片中GPS经纬度信息,保存到表格
  • MTK zephyr平台:系统休眠流程
  • CAU数据库class2 SQL语言
  • Java 中Supplier延迟生成值的原因