当前位置: 首页 > news >正文

深度学习12 Reinforcement Learning with Human Feedback

本节包含三个主要部分:

  1. RLHF的动机
  2. RLHF框架
  3. RLHF面临的挑战

Motivation for RLHF

大型语言模型(LLMs)能够从人类提示中生成令人信服的文本完成

这说明了为什么我们需要RLHF - 它能帮助模型更好地理解和执行人类的意图。

LLMs are successful at generating compelling completions for human prompts.

However, how do we make sure the generated text follows human preferences, i.e., values and goals?

对齐定义Alignment: "将人类价值观和目标编码到LLMs中的过程,使其尽可能有帮助、安全和可靠。"

Process of encoding human values and goal into LLMs to make them as helpful, safe and reliable as possible.”

这表明RLHF不仅仅是提高模型性能,更重要的是确保模型的输出符合人类的期望和价值观。

对齐在LLMs中可以帮助实现三个主要目标:

  1. 通过阻止有害回答来提高模型安全性 safer
  2. 通过阻止事实错误回答来提高模型可靠性 reliable
  3. 通过鼓励定制化回答来提高模型帮助性(如遵循特定规则和政策) helpful

这些目标难以直接集成到基础模型训练中,因此需要RLHF在预训练后进行调整。 using human feedback on produced text once the foundational model is trained, to fine tune it

The RLHF framework

RLHF的发展历程:

最初由Christiano等人(2017)和Stiennon等人(2020)开发

通过Long等人(2022)的InstructGPT实现普及

RLHF包含3个核心步骤:

  1. 预训练模型(如LLM)
  2. 收集人类偏好数据并训练奖励模型
  3. 使用奖励模型通过强化学习微调初始模型

第一步:收集示范数据训练监督策略
  1. 收集数据:从现有的提示数据集中随机选择一个提示,如“向一个六岁的孩子解释月球”。
  2. 人工示范:一个标注员将展示期望的输出行为,比如具体如何向六岁孩子解释月球。
  3. 使用监督学习进行微调:使用这些人工示范的数据对 GPT-3 进行微调,目的是使模型学习如何产生期望的输出。

这一步是让模型学习直接从精确、高质量的示例中生成特定的输出。这类似于老师在课堂上示范一个数学问题的解法,然后让学生模仿这种方法

第二步:收集比较数据,训练奖励模型
  1. 收集数据:使用一个提示和多个模型输出进行样本的生成。
  2. 标注员评级:标注员将这些输出从最好到最差进行排序。
  3. 训练奖励模型:使用这些排序后的数据训练一个奖励模型,该模型旨在学习如何评估模型输出的质量。

这个过程类似于在一个竞赛中对参赛作品进行评分。它帮助模型理解不同输出间的质量差异,并且学习如何改进以生成更受欢迎的结果。

第三步:针对奖励模型优化策略,使用强化学习
  1. 生成新的提示:从数据集中随机抽取一个新的提示,如“写一个故事”。
  2. 策略生成输出:使用策略生成一个输出,例如故事的开头。
  3. 计算奖励:奖励模型评估此输出并计算奖励值。
  4. 更新策略:使用 PPO(Proximal Policy Optimization,近端策略优化)根据奖励值更新策略。

这一步骤的核心是通过“试错”学习更好地完成任务。模型通过不断尝试和调整,学习如何改进其生成的内容,使其更符合人类的期望和标准。

总结

第一步:预训练模型

预训练模型的特点:

使用传统预训练目标(如预测下一个token)

必须能够很好地响应各种指令

可以通过其他策略(如监督微调)在"理想"文本上进行微调

第二步:训练奖励模型

包含两个阶段:

收集人类偏好数据

训练奖励模型(通常是语言模型)

  1. 输入:文本序列
  2. 输出:表示人类偏好的标量奖励值

实际评估练习

关于飓风Helene的新闻文章摘要评估案例:

原文介绍了飓风Helene即将登陆佛罗里达的情况

提供了3个不同的摘要版本供评估

这个练习展示了如何在实践中收集人类偏好数据

例:评价1:此摘要忠实于原文,保持了主要信息的完整性,并清楚地传达了关键信息。

第三步:强化学习微调

  1. 复制初始语言模型作为RL策略(这个模型已经能够生成基于文本的输出,但可能不完全符合特定的人类偏好,所以将这个副本将通过强化学习进行微调)
  2. 使用近端策略优化(PPO)等策略梯度算法

参数冻结:更新所有参数会非常昂贵,因此策略中的部分参数是冻结的,只有一部分参与优化。

微调目标:使用RL微调的目的是通过奖励模型的指导,精细调整模型的输出,使其更符合用户的期待和偏好。

Iterated Online RLHF

Anthropic提出的在线迭代版本:

传统RLHF使用离线RL(基于静态数据集)

在线版本允许持续更新和改进

RLHF面临的挑战

评价者和目标用户的不对齐 难监管 数据质量 不同反馈类型的限制(文本 评分)

问题设定错误(围捕捉正确需优化目标) 错误泛化或者引起黑客攻击(模型找到奖励函数漏洞) 评估困难(环境复杂情况下)

RL的困难(维度 训练稳定性 收敛) 乱泛化(违规问题上或者无法处理新问题)

分布复杂

Joint RM/Policy Training Challenges同时训练奖励模型和策略可能导致额外的复杂性,因为两者的目标需要仔细平衡,以避免相互冲突。

Addressing challenges in RLHF

1.Human Feedback(人类反馈)

  1. AI assistance(AI辅助):使用AI技术来辅助评估者,减少人为误差。
  2. Fine-grained feedback(细粒度反馈):收集更具体、更详细的反馈,以提高数据质量。
  3. Process supervision(过程监督):增强对评估过程的监督,确保数据收集的一致性和可靠性。
  4. Translating language to reward(将语言转换为奖励):将人类的语言反馈转换为可量化的奖励信号,以供模型学习。
  5. Learning from demonstrations(通过示范学习):通过观察具体的行为示范来学习,而不仅仅是通过评价者的言语反馈。

2. Reward Model(奖励模型)

  1. Direct human oversight(直接人类监督):确保人类直接参与奖励模型的训练过程,以监控和指导模型的行为。
  2. Multi-objective oversight(多目标监督):监督不仅仅基于单一目标,而是多方面考虑,以减少偏见和误导。
  3. Maintaining uncertainty(保持不确定性):在模型中保持一定的不确定性,以避免过度自信和潜在的误导行为。

3. Policy(政策)

  1. Aligning LLMs during pretraining(在预训练期间对齐大型语言模型):确保在预训练阶段就引入对齐的策略,以便模型能够在早期就适应特定的人类偏好。
  2. Supervised learning(监督学习):使用监督学习方法来直接教授模型期望的行为,而不完全依赖于从复杂环境中自我学习。

Ethical implications

人类偏好的主观性(Subjectivity of human preferences)

人类偏好因个人经验、文化背景、语言等因素而异,对于创意性作品等领域,很难达成共识。这意味着,收集到的反馈可能各不相同,难以形成统一的训练目标。

人类评估者的易错性或故意的恶意意图(Fallibility of human evaluators, or even intentional malicious intentions)

执行重复任务时,人类评估者可能无意中提供质量较低的数据,或故意提供有偏见的反馈(如恶作剧)。例如,存在研究指出自动化方法可能被误导,从而扭曲反馈数据。

过度拟合和偏见的风险(Risk of overfitting and bias)

模型可能过度拟合于特定文化、人群或个体的价值观,导致其性能在不同群体中出现差异,或对特定主题产生偏见的回答。

收集人类反馈是一个昂贵的过程(Collecting human feedback is an expensive process)

为了降低成本,可能会采取可疑的数据收集实践,如利用低薪劳动力识别有毒内容,或通过免费源获取数据,这可能导致偏见或低质量的数据。

举例:一篇文章指出OpenAI使用肯尼亚工人以每小时不到2美元的工资来识别有毒内容,这引发了对数据收集伦理的关注。

RLHF流程的有限可扩展性(Limited scalability of the RLHF process)

现有的RLHF方法可能难以扩展到更大的应用范围,研究如“RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”提供了可能的解决途径。

http://www.xdnf.cn/news/1373221.html

相关文章:

  • 如何在阿里云百炼中使用钉钉MCP
  • 深度学习——激活函数
  • 【stm32简单外设篇】-4×4 薄膜键盘
  • 区块链技术探索与应用:从密码学奇迹到产业变革引擎
  • 【PS实战】制作hello标志设计:从选区到色彩填充的流程(大学作业)
  • 开发electron时候Chromium 报 Not allowed to load local resource → 空白页。
  • 【分布式技术】Kafka 数据积压全面解析:原因、诊断与解决方案
  • 基于muduo库的图床云共享存储项目(一)
  • More Effective C++ 条款10:在构造函数中防止资源泄漏
  • Tomcat的VM options
  • 广告推荐模型3:域感知因子分解机(Field-aware Factorization Machine, FFM)
  • 变压器副边电流计算
  • ARP地址解析协议
  • 嵌入式C语言进阶:结构体封装函数的艺术与实践
  • Java 集合笔记
  • 宝石组合(蓝桥杯)
  • 2025最新的软件测试热点面试题(答案+解析)
  • 【Linux 34】Linux-主从复制
  • plantsimulation知识点 RGV小车前端与后端区别
  • CNN 中 3×3 卷积核等设计背后的底层逻辑
  • spring如何通过实现BeanPostProcessor接口计算并打印每一个bean的加载耗时
  • 如何下载MySQL小白指南 (以 Windows 为例)
  • 基础|Golang内存分配
  • 学习游戏制作记录(保存装备物品技能树和删除存档文件)8.26
  • 数据结构的线性表 之 链表
  • 深度学习——神经网络(PyTorch 实现 MNIST 手写数字识别案例)
  • 2026 届最新大数据专业毕设选题推荐,毕业设计题目汇总
  • typescript 中的访问修饰符
  • 工业数据消费迎来“抖音式”革命:TDengine IDMP 让数据自己开口说话
  • 利用3台机器搭建Kubernetes集群