当前位置：首页 > news >正文

RLHF：人类反馈强化学习 | 对齐AI与人类价值观的核心引擎

news 2025/9/1 19:35:05

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

从ChatGPT到自动驾驶的偏好驱动革命

RLHF（Reinforcement Learning from Human Feedback） 是一种将人类主观判断融入强化学习的训练范式，通过人类偏好数据替代传统奖励函数，解决复杂任务中目标难以量化的问题。其核心价值在于：

经典案例：ChatGPT通过RLHF将有害请求拒绝率从40%提升至96%。

往期文章推荐:

目标：教会模型理解任务格式（如问答、摘要）。
方法：
- 人工构建(prompt, response)示范数据（如Reddit TL;DR数据集）。
- 优化损失函数：
  $LSFT=−∑log⁡P(response∣prompt)\mathcal{L}_{\text{SFT}} = -\sum \log P(\text{response} \mid \text{prompt})$

核心挑战：将人类偏好转化为标量奖励信号。
数据收集范式：
方法操作优势
对比学习 标注员排序回答（如A > B > C）减少评分主观噪声
直接评分 独立评分（如1-5分）直观但一致性低
奖励模型训练：
- 使用Bradley-Terry模型计算偏好概率：
  $\frac{\exp(r_\theta(A))}{\exp(r_\theta(A)) + \exp(r_\theta(B))}$
- 损失函数：交叉熵损失优化偏好预测。

方法	操作	优势
对比学习	标注员排序回答（如A > B > C）	减少评分主观噪声
直接评分	独立评分（如1-5分）	直观但一致性低

四大模型协作：

优化算法：
- PPO（近端策略优化）：
  $LPPO=E[rθ(y)−βlog⁡πRL(y∣x)πSFT(y∣x)]\mathcal{L}_{\text{PPO}} = \mathbb{E} \left[ r_\theta(y) - \beta \log \frac{\pi_{\text{RL}}(y|x)}{\pi_{\text{SFT}}(y|x)} \right]$
  - 优势：稳定、支持KL惩罚防止过优化。
- DPO（直接偏好优化）：
  - 直接优化策略参数，避免显式奖励建模，降低计算成本。

问题：模型学习“欺骗”奖励模型（如堆砌复杂句式获高分）。
解决：
- Crome框架（Google DeepMind）：
  - 因果增强：生成反事实样本（如降级事实性），强化模型对因果属性（如准确性）的敏感度。
  - 中性增强：将回答置于无关上下文，消除对虚假属性（如格式）的依赖。

问题：70B以上模型需协调4个模型，内存与调度复杂度剧增。
框架革新：
- OpenRLHF：
  - 使用Ray分布式调度、vLLM推理加速、DeepSpeed训练优化，支持70B+模型训练。
  - 集成PPO、DPO、KTO等多种对齐算法。

领域	问题	RLHF解决方案	效果
对话系统	GPT-3生成有害内容	10万组回答标注 → 训练多维度RM → PPO微调	有害请求拒绝率提升至96%
自动驾驶	驾驶员偏好差异（舒适性vs效率）	影子模式收集1亿+干预数据 → 个性化奖励建模	特斯拉Autopilot决策满意度提升40%
医疗诊断	模型生成不准确报告	医生对报告评分 → 训练事实性RM → 约束生成策略	诊断F1-score达0.942
创意生成	艺术创作缺乏创新性	用户偏好排序 → 混合奖励（美感+新颖性）优化	生成多样性提升35%