当前位置：首页 > news >正文

RLHF（人类反馈的强化学习）

news 2025/9/4 17:51:15

RLHF是什么

RLHF，即基于人类反馈的强化学习，是一种结合强化学习算法与人类主观判断的训练技术。它通过引入人类的偏好和反馈来优化模型的行为和输出，使模型能够生成更符合人类期望的结果。

训练步骤为：

预训练语言模型：首先需要一个预训练的语言模型，通过大量语料训练出基础模型。例如，ChatGPT的基础模型是GPT-3。
训练奖励模型：收集人类标注的偏好数据，训练一个奖励模型（Reward Model, RM），该模型能够预测人类对不同输出的偏好分数。
强化学习微调：利用奖励模型提供的奖励信号，通过强化学习算法（如PPO）对语言模型进行微调，优化模型的输出

RLHF的奖励函数相比于传统强化学习的奖励函数有什么特点

传统强化学习通过环境提供的奖励信号训练Agent，但复杂任务（如自然语言生成）往往难以设计自动化的奖励函数。RLHF 的核心创新在于用人类反馈替代传统奖励函数，通过人类对模型输出的评价，训练一个“奖励模型”（Reward Model），再用这个模型指导强化学习过程，最终让模型的输出更符合人类偏好。该奖励函数满足以下需求：

能够解决人类 只能识别所需行为，但不一定能提供演示的任务
允许 非专家用户 进行示教
能扩展到大规模问题
用户给出反馈的成本不高

RLHF-PPO 四个模型

Actor Model：策略模型，这就是我们想要训练的目标语言模型。
Reference Model：参考模型，它的作用是在RLHF阶段给语言模型增加一些“约束”，防止语言模型训歪。我们希望训练出来的Actor模型既能达到符合人类喜好的目的，又尽量让它和SFT模型不要差异太大。即希望两个模型的输出分布尽量相似，通过与Actor Model之间的KL散度控制。
Critic Model：评估模型/价值模型，它的作用是期望回报，在RLHF中，我们不仅要训练模型生成符合人类喜好的内容的能力（Actor），也要提升模型对人类喜好量化判断的能力（Critic）。
Reward Model：奖励模型，它的作用是计算即时收益。奖励模型可以是人为规定的，也可以用神经网络实现。

其中Actor和Critic Model是需要训练的，Reward和Reference Model是参数冻结的。Actor 和Reference model用同一个sft模型初始化，Reward 和Critic model用同一个奖励模型初始化。