自我奖励语言模型:突破人类反馈瓶颈
核心思想
自我奖励语言模型提出了一种全新的语言模型对齐范式。传统方法如RLHF或DPO依赖人类反馈数据训练固定的奖励模型,这使模型的能力受限于人类标注数据的质量和数量。论文作者认为,要实现超人类能力的AI代理,未来的模型需要突破人类反馈的瓶颈。该研究创新地将奖励模型功能整合到语言模型本身,使模型能够通过评估自己的输出进行持续自我改进,形成良性循环。
方法设计
自我奖励语言模型融合了两种关键能力:指令遵循和自我指令创建。在指令遵循方面,模型能够针对用户请求生成高质量回答;在自我指令创建方面,模型能够生成新的指令示例并评估回答质量。这种自我评估通过"LLM-as-a-Judge"机制实现,即将响应评估任务转化为指令遵循任务。
研究者设计了一个迭代训练框架:从一个种子模型开始,每次迭代包括两个阶段:自我指令创建和指令遵循训练。在自我指令创建阶段,模型生成新提示,为每个提示生成多个候选回答,然后用同一个模型评估这些回答。在指令遵循训练阶段,基于评分构建偏好对,通过DPO训练下一代模型。这种设计使奖励模型不再是固定的外部组件,而是模型自身能力的一部分,可以随训练共同进步。
实验设计与数据集说明
研究者使用Llama 2 70B作为基础模型,从Open Assistant数据集获取种子数据。实验中使用的主要数据集和模型定义如下:
数据集
-
IFT数据集(指令微调数据):
- 来源于Open Assistant数据集中的高质量人类标注示例
- 包含3200个指令-回答对,用于教导模型如何按照指令生成回答
- 这是传统语言模型微调的基础数据
-
EFT数据集(评估微调数据):
- 从Open Assistant数据集构建的评估任务数据
- 包含1630个训练样本,教导模型如何作为评判者评估回答质量
- 使用特定的LLM-as-a-Judge提示模板,引导模型学习累加式5分制评分标准
- 这是赋予模型自我评估能力的关键数据
模型序列
- M₀:未经微调的原始Llama 2 70B模型
- M₁:使用IFT+EFT种子数据进行监督微调的模型,同时具备指令遵循和回答评估的基础能力
- M₂:以M₁为基础,使用M₁生成并评估的数据(AIFT(M₁))通过DPO训练的模型
- M₃:以M₂为基础,使用M₂生成并评估的数据(AIFT(M₂))通过DPO训练的模型
这种设计使得每次迭代,模型不仅能够利用前一代模型的评估能力生成更好的训练数据,而且这种评估能力本身也在迭代过程中得到改进。这是自我奖励方法的核心创新——打破了传统RLHF中固定奖励模型的限制。
实验结果
指令遵循能力提升
下表展示了不同迭代模型在头对头评估中的性能:
对比 | 自我奖励模型胜 | 平局 | SFT基线胜 |
---|---|---|---|
自我奖励M₃ vs. SFT基线 | 62.5% | 27.7% | 9.8% |
自我奖励M₂ vs. SFT基线 | 49.2% | 36.3% | 14.5% |
自我奖励M₁ vs. SFT基线 | 30.5% | 38.7% | 30.9% |
对比 | 左模型胜 | 平局 | 右模型胜 |
---|---|---|---|
自我奖励M₃ vs. M₂ | 47.7% | 39.8% | 12.5% |
自我奖励M₂ vs. M₁ | 55.5% | 32.8% | 11.7% |
自我奖励M₃ vs. M₁ | 68.8% | 22.7% | 8.6% |
这些结果表明,随着迭代次数增加,模型的指令遵循能力显著提升。M₁与SFT基线性能相当,但M₂明显优于基线,M₃进一步加强了这种优势。此外,后期迭代模型总是优于前期迭代模型,证明自我奖励方法确实能够带来持续改进。
AlpacaEval 2.0排行榜表现
模型 | 胜率(vs. GPT-4 Turbo) |
---|---|
自我奖励70B | |
第1次迭代(M₁) | 9.94% |
第2次迭代(M₂) | 15.38% |
第3次迭代(M₃) | 20.44% |
精选排行榜模型 | |
GPT-4 0314 | 22.07% |
Mistral Medium | 21.86% |
Claude 2 | 17.19% |
Gemini Pro | 16.85% |
GPT-4 0613 | 15.76% |
LLaMA2 Chat 70B | 13.87% |
在AlpacaEval 2.0排行榜上,M₃模型以20.44%的胜率超过了Claude 2、Gemini Pro和GPT-4 0613等强大模型,体现了自我奖励方法的强大潜力。
不同指令类别的性能改进
以下是自我奖励模型在不同指令类别上的胜率提升:
类别 | M₀ | M₁ | M₂ | M₃ |
---|---|---|---|---|
健康 | 19% | 19% | 30% | 31% |
专业/商业 | 19% | 19% | 28% | 28% |
娱乐 | 15% | 16% | 26% | 27% |
技术 | 10% | 15% | 20% | 23% |
文学 | 9% | 9% | 10% | 22% |
科学 | 6% | 7% | 14% | 22% |
旅行 | 7% | 13% | 15% | 21% |
数学 | 15% | 9% | 10% | 12% |
烹饪 | 0% | 1% | 2% | 7% |
细粒度分析显示,自我奖励模型在大多数指令类别上都有明显改进,但在数学和烹饪等任务上改进有限,说明当前方法主要帮助模型更好地利用其已有知识。
奖励模型能力提升
评估指标 | SFT基线 | M₁ | M₂ | M₃ |
---|---|---|---|---|
成对准确率(↑) | 65.1% | 78.7% | 80.4% | 81.7% |
5分最佳率(↑) | 39.6% | 41.5% | 44.3% | 43.2% |
完全匹配率(↑) | 10.1% | 13.1% | 14.3% | 14.3% |
Spearman相关(↑) | 0.253 | 0.279 | 0.331 | 0.349 |
Kendall τ相关(↑) | 0.233 | 0.253 | 0.315 | 0.324 |
模型的奖励评估能力也随迭代显著提高。添加EFT数据使模型评估能力明显提升(M₁ vs SFT基线),随后的迭代(M₂和M₃)进一步增强了这种能力,表明模型不仅变得更擅长遵循指令,也变得更擅长评估回答质量。
MT-Bench性能
模型 | 总体 | 数学和推理 | 人文/STEM/角色扮演/写作 |
---|---|---|---|
SFT基线 | 6.85 | 3.93 | 8.60 |
M₁ | 6.78 | 3.83 | 8.55 |
M₂ | 7.01 | 4.05 | 8.79 |
M₃ | 7.25 | 4.17 | 9.10 |
MT-Bench结果显示,自我奖励模型在多轮对话任务上也有改进,尤其在人文、STEM、角色扮演和写作等类别上提升显著,而在数学和推理任务上提升相对较小。
研究意义
自我奖励语言模型开创了一个新范式,让模型可以通过持续自我评估来超越人类反馈的限制。这种方法只需少量人类标注的种子数据,就能通过迭代自我改进达到竞争性能。尤为重要的是,这种方法打破了固定奖励模型的约束,使指令遵循能力和评估能力能够相互促进,形成真正的自我对齐。
随着自我奖励模型的进一步发展,我们或许能看到AI系统能力的不断提升,而不再受限于人类反馈的天花板。然而,当前方法对数学推理等任务的改进仍有限,表明该方法主要帮助模型更好地利用已有知识,而非获得新的复杂推理能力,这为未来研究指明了方向。
原文链接
https://arxiv.org/pdf/2401.10020v3