Inference-Time Scaling for Generalist Reward Modeling
Inference-Time Scaling for Generalist Reward Modeling
摘要
本文研究了大型语言模型(LLM)在通用评审场景中的能力,提出了将明确评审原则与点评生成相结合的方法,以提高模型的点评质量与排序准确性。我们设计了统一的通用奖励建模(GRM)框架,并在此基础上提出了自原则化评审微调(SPCT)方法,包括拒绝式微调与基于规则的在线强化学习两阶段策略,实验证明该方法在多项任务和模型上均取得显著性能提升。
背景与动机
在传统的奖励建模(Reward Modeling, RM)中,高质量的奖励信号往往依赖于:
- 人工设计的、条件明确的环境(如数学题可验证标准、编程题测试用例)
- 专家的手工标注或预定义规则
但在更通用的自然语言评审任务中:
- 输入类型和领域多样,缺乏显式“金标准”
- 奖励判定标准往往模糊且依赖上下文
- 随着可用推理计算资源的增加,需要模型具备推理时可扩展性,生成更精细的奖励信号
因此,亟需设计一种方法,使得 LLM 在缺乏显式规则的场景中,依然能够生成准确、一致且可扩展的奖励信号。
方法概述
1. 通用奖励建模(GRM)
- 统一框架:支持单响应与多响应的点评生成与打分
- 点评范式:采用点式生成式 RM,通过生成点评文本并解析出数值分数
- 扩展策略:利用并行采样(sampling-based)与投票(voting)聚合,在推理时根据采样次数动态提升奖励质量
2. 自原则化评审微调(SPCT)
SPCT 旨在使 GRM 在推理时自适应地生成高质量评审原则与点评,包含两个阶段:
2.1 拒绝式微调(Rejective Fine-Tuning)
- 目标:为模型提供“冷启动”能力,学会生成格式正确、语义合理的原则与点评
- 数据构建:对每个查询及其候选响应集,使用预训练 GRM 多次采样生成 ((m) 条原则,(n) 条点评)
- 拒绝策略:
- 如果所有采样点评均与真实标签不一致,则视为错误,舍弃该条样本
- 如果所有采样点评均与真实标签一致,则视为过易,也舍弃
- 训练目标:仅对“既非过易也非错误”的采样轨迹进行微调,以稳定学习高质量生成
2.2 基于规则的在线强化学习
- 奖励设计:对于生成的点评,设定正负奖励:
- 正奖励 (+1) 条件:
- 多响应场景下,模型成功识别出真实最优响应
- 单响应场景下,生成评分等于真实标签
- 负奖励 (-1) 条件:其他情况
- 正奖励 (+1) 条件:
- RL 设置:采用带 KL 惩罚的 GRPO,兼顾行为探索与输出稳定性
- 在线更新:随着新样本与并行采样不断加入,模型持续优化原则与点评生成策略,实现性能与计算资源的协同提升
实现细节
- 模型结构:基于某主流 LLM(如 GPT-4o)微调,参数共享用于原则生成与点评生成
- 采样参数:并行采样次数 (k) 通常设置为 16 到 64,可根据资源灵活调整
- 聚合策略:对生成式点评文本解析出离散分数后,采用投票法选取最频繁分数作为最终输出
- 训练配置:
- 拒绝式微调:采样次数 (N_{RFT}=5),优化步数数千步
- 在线 RL:学习率 1e-5,KL 系数 0.1,持续数万步
实验设置
- 任务类型:多轮对话评估、问答排序、摘要质量评测、偏见检测与公平性评估
- 数据集:Reward Bench(Chat Hard子集)、PPE(IFEval子集)、自建通用评审集
- 对比方法:标量 RM、半标量 RM、PPO 微调生成式 RM、无原则生成式 RM
- 评价指标:排序准确率(Accuracy@1)、点评质量分数、人类评估一致性(Cohen’s κ)
实验结果
方法 | Accuracy@1 | 平均点评分数 | Cohen’s κ |
---|---|---|---|
标量 RM | 60.2% | 5.8/10 | 0.45 |
半标量 RM | 68.7% | 6.5/10 | 0.52 |
生成式 RM (无原则) | 72.3% | 7.1/10 | 0.60 |
SPCT (本工作) | 78.9% | 8.2/10 | 0.68 |
- SPCT 相较于无原则生成式 RM,Accuracy@1 提升 6.6 个百分点,点评分数提升 1.1 分,评估一致性显著提高。
- 在任务多样性测试中,SPCT 能保持高稳定性,标准差小于 2%。
讨论与分析
- 原则生成的重要性:实验表明,模型生成并遵循评审原则能有效减少评估偏差,提高点评一致性。
- 可扩展性验证:随着采样次数 (k) 从 8 增加到 64,Accuracy@1 由 74.0% 提升至 79.5%,验证了推理时计算规模扩展的效果。
- 方法局限:
- 对极端长文本或多模态输入支持需进一步探索
- 在线 RL 阶段对计算资源依赖较高,需优化效率
结论
本文提出了将评审原则与点评生成融为一体的 SPCT 方法,为通用奖励建模提供了新范式。实验验证了该方法在多任务、多模型上的卓越性能和可扩展性。未来工作将聚焦于:
- 支持更复杂多模态评审场景
- 降低在线 RL 的计算成本
- 探索自监督方式提升原则质量
最后
本文创新性地将“生成评审原则”与“基于原则的点评”相结合,通过两阶段微调与在线强化学习,使得大型语言模型能够在推理时动态扩展计算规模并输出高质量的评审结果。该方法不仅提升了点评与排序的准确性,还显著增强了人类评估一致性,为构建更可靠的自动评审系统提供了重要参考。