当前位置：首页 > news >正文

RLVR的一种扩展方案--RLPR论文阅读

news 2025/7/26 5:45:01

论文链接：RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS

文章目录

简介
RLPR
- RLVR
- 概率奖励/Probability Reward
- 奖励设计
- 标准差过滤
总结

简介

可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型（LLMs）的推理能力方面展现出了良好潜力，但其依赖基于规则、准确答案或代码运行等可验证的硬奖励，使其很大程度上局限于数据和代码领域。

为了解决此问题，本论文作者发现LLMs生成正确自由形式答案的内在概率能直接反应其对推理奖励的自我评估，即推理过程对得出争取答案的贡献程度；基于这一见解，提出了一种无需验证器的简洁框架–基于参考概率奖励的强化学习(Reinforcement Learning with Reference Probability Reward, RLPR)，其可将RLVR扩展到更广泛的通用领域。RLPR使用LLMs对参考答案的token概率分数作为奖励信号，在训练过程中最大化期待的奖励；该概率分数是LLMs基础能力中自然内置的一部分，即使没有专门微调，也能为奖励评估提供良好的覆盖范围和潜力；此外其还能更好地应对自由形式自然语言答案的复杂性和多样性，即使对于部分正确的答案，也能给出合理的奖励。RLPR引入了以下两项关键创新：

提出一种简单可扩展的奖励方案，可替代来自外部验证器的显示奖励，直接通过参考答案token的平均解码概率计算内在概率的奖励；包含一种简单的去偏方法，通过优化同一提示在无推理情况下的奖励优势来消除文本带来的奖励偏差
提出一种自适应课程学习机制以稳定训练过程，基于过去奖励标准差的指数移动平均值设定动态阈值，自适应地移除那些产生低奖励标准差的提示(过于简单或过于复杂)，这种方法能很好地适应训练过程中奖励分布的变化，提高训练稳定性和最终性能

在四个通用领域基准和三个数学基准上进行的全面实验表明，对于基于 Gemma、Llama 和 Qwen 的模型，RLPR 在这两个领域中均能持续提升其推理能力。值得注意的是，RLPR 在 TheoremQA 基准上比同期的 VeriFree 方法高出 7.6 分，在 Minerva 基准上高出 7.5 分，甚至在七个基准上的平均得分比依赖强验证器模型的 General-Reasoner 方法高出 1.6 分。

在这里插入图片描述

图1 常规RLVR和RLPR对比

图1详细描述了传统RLVR和RLPR之间的区别，RLVP依赖专用验证器计算奖励，如图中描述的数学验证器、代码验证器等，并且一般较为复杂且具有领域性，难以迁移到其他领域。RLPR则使用策略模型 $πθ\pi_{\theta}$ 生成的简单概率奖励替代负责的基于验证器的奖励，其中 $Q,z,y,y^*$ 分别表示输入问题、LLMs生成最终答案前的推理内容、生成的最终答案和参考答案。图1右侧的一个例子则表明，RLVR常使用的规则和验证器在处理自然语言负责性有限，它们会将 $y_2,y_3$ 标记为不正确，但是RLPR则能成功将 $y_2,y_3$ 标记为正向奖励。

RLPR

RLVR

RLVR是一种典型的后训练范式，其基于规则的验证器为每个生成的响应分配一个奖励分数的标量；即给定提示词 $x$ 、策略模型 $πθ\pi_{\theta}$ ，LLMs生成推理内容 $z$ 和最终的答案 $y$ ，然后对期望的验证器奖励分数进行优化：
$J(θ)=Ez,y∼πθ(⋅∣x)[fverifier(y,y∗)](1)\mathcal{J}(\theta)=\mathbb{E}_{z,y \sim \pi_{\theta}(\cdot|x)}[f_{verifier}(y,y^*)] \tag1$

其中 $f_{verifier}$ 是特定于任务的基于规则的验证器，用于判断生成的答案 $y$ 是否通过由真实答案 $y^*$ 定义的测试，常见的验证器包括数学问题的符号验证器、用于代码生成的沙箱执行验证器等。构建基于规则的验证器是一项费力的系统性功能，需要人为设计规则并处理边缘情况，极大限制了RLVR在新领域的领用。

概率奖励/Probability Reward

将一个问题 $Q$ 的回复用 $o=(o0,⋅⋅⋅,oN)o=(o_0,\cdot\cdot\cdot,o_N)$ 表示，其中 $o_i
$是回复中一个独立的token。为了获得概率，先从生成的整个回复序列中提取答案 $y$ ，剩下的部分为推理内容 $z$ 。然后将生成回复中的真实答案 $y$ 替换为参考答案 $y^*$ 得到一个调整后的序列 $o′=(o0′,⋅⋅⋅,oN′′)o^{'}=(o^{'}_0,\cdot\cdot\cdot,o^{'}_{N^{'}})$ ，将此序列送入策略模型得到概率 $(p0,⋅⋅⋅,pN′)(p_0,\cdot\cdot\cdot,p_{N^{'}})$ ，奖励则由以下公式计算：
$r=fseq({pi∣oi′∈o′})(2)r=f_{seq}(\{p_i|o_i^{'} \in o^{'}\}) \tag2$

其中 $f_{seq}$ 用于将每个token的概率聚合为响应 $o$ 的单个奖励标量。虽然使用 $fseq=∏Nf_{seq}=\sqrt[N]{\prod}$ （概率的归一化乘积，即序列似然性）可以反映参考答案的整体似然性，但发现这种方式会引入高方差，并且对同义词等细微变化过于敏感。例如，token 概率序列（0.01, 0.7, 0.9）和（0.05, 0.7, 0.9）在乘积运算下会产生差异极大的分数，尽管仅在第一个 token 上存在微小差异。为解决这一问题，转而采用 $fseq=1∣y∗∣∑f_{seq} = \frac{1}{|y^*|}\sum$ （均值概率），这种方式能产生更稳健的奖励信号，与答案质量的相关性更优。实验观察到，概率奖励值与生成答案 $y$ 的质量高度一致：当预测答案与参考答案在语义上相似时，会获得较高奖励；反之，则奖励较低。

奖励设计

基于概率的奖励与响应质量有很强的相关性，但也会受到多种潜在因素的影响，大致可分解为两个潜在因素，分别是推理内容 $z$ 和涵盖其他相关但未观测因素的特征，如问题、参考答案等。直接使用公式(2) 中的 $r$ 作为奖励会引入未观测因素，可能降低奖励质量。为了缓解此问题，引入基准分数 $r′=fseq({pi∣oi′∈y∗})r^{'}=f_{seq}(\{p_i|o_i^{'} \in y^*\})$ ，即使用公式(2)只计算参考答案 $y^*$ 的分数。去偏后的概率奖励计算如下：
$r^=clip(0,1,r−r′)(3)\hat{r}=\text{clip}(0,1,r-r^{'}) \tag3$

其中的裁剪操作确保奖励可保持在李强的数值范围 $[0, 1]$ 之内。公式(3)可有效消除来自问题和参考答案的潜在偏差，将概率奖励/PR建模未给定生成推理过程 $z$ 后概率的提升量。实验发现，此去偏方法可以稳定训练过程，提高奖励的稳健性，最终目标函数的梯度估计器为：
$∇JRLPR(θ)=∇Eo∼πθ(⋅∣x)[r^]=∑or^πθ(o∣x)∇log⁡πθ(o∣x)=Eo∼πθ(⋅∣x)[r^∇log⁡πθ(o∣x)]\begin{align*} \nabla \mathcal{J}_{RLPR}(\theta) &= \nabla \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}] \\ &= \sum_{o} \hat{r}\pi_{\theta}(o|x) \nabla \log \pi_{\theta}(o|x) \\ &= \mathbb{E}_{o \sim \pi_{\theta}(\cdot|x)}[\hat{r}\nabla \log \pi_{\theta}(o|x)] \tag4 \end{align*}$

其中在整个回复 $o = z ∣∣ y$ 上优化奖励。

标准差过滤

常规的强化学习或RLVR一般采用准确率过滤，即排除过难或过易的prompts来稳定训练，意味着很大概率会过滤掉完全正确或完全错误的prompts。然而概率奖励/PR的连续性使其难以直接引用准确率过滤，因为很难为响应的正确性设定一个通用阈值。

通过分析准确率过滤，观察到过滤奖励标准差交替的prompts能够达到类似的效果。具体来说，概率奖励值取值范围为 $[0, 1]$ ，具有有界性，那些产生全高分或圈地分的prompts会表现出较低的标准差。训练过程中整体的标准差分布不断变化，固定的阈值可能会在不同训练阶段导致过滤过严或过松的问题。为解决此问题，采用指数移动均值，利用每个训练步的平均标准差来动态更新过滤阈值 $β\beta$ 。通过过滤掉奖励标准差小于 $β\beta$ 的prompts，实现一种自适应课程学习机制，提升训练稳定性的同时也提高最终性能。