当前位置: 首页 > news >正文

DAPO:用于指令微调的直接偏好优化解读

一、背景与动机:从RLHF到DPO,再到DAPO

大型语言模型(LLM)经过海量无监督预训练后,往往需要对齐人类偏好遵循指令的微调,使模型的回答更符合人类期望。这一过程通常通过人类反馈强化学习(RLHF)来实现。例如OpenAI的ChatGPT就使用了RLHF:先让人工标注对模型输出进行偏好排序,训练一个奖励模型(Reward Model)去评估输出好坏,然后采用近端策略优化(PPO)等强化学习算法,让模型(策略)最大化这个奖励模型的评分【注:PPO是一种约束更新幅度的策略梯度算法,在RLHF中被广泛采用】。RLHF在提升模型可控性和符合人意方面效果显著,但也存在流程复杂、训练不稳定等问题:需要训练额外的奖励模型,调参繁琐,还可能出现“奖励模型欺骗”或输出分布坍塌等现象。

直接偏好优化(DPO)的提出正是为了解决上述一些问题。2023年,一些研究者发现可以跳过显式的强化学习过程,直接利用偏好数据来微调模型,使其倾向人类偏好的回答。简单来说ÿ

http://www.xdnf.cn/news/539227.html

相关文章:

  • 【idea 报错:java: 非法字符: ‘\ufeff‘】
  • 第二十一次博客打卡
  • 【C语言内存函数】--memcpy和memmove的使用和模拟实现,memset函数的使用,memcmp函数的使用
  • 1 asyncio模块
  • Ubuntu——配置静态IP
  • 基于Transformers与深度学习的微博评论情感分析及AI自动回复系统
  • 【C++】模版(1)
  • 基于不完美维修的定期检测与备件策略联合优化算法matlab仿真
  • megatron——EP并行
  • 商标名称起好后,尽快申请注册确权!
  • 【cursor疑惑】cursor续杯后使用agent对话时,提示“需要pro或商业订阅的用户才能使用“
  • 电路研究9.3.6——合宙Air780EP中的AT开发指南:FTP 应用指南
  • np.r_的用法
  • 代码随想录 算法训练 Day6:哈希表part1
  • Mybatis的标签:if标签、where标签、choose,when标签、set标签
  • 【vs2022的C#窗体项目】打开运行+sql Server改为mysql数据库+发布
  • React学习———Immer 和 use-immer
  • 编译zstd
  • 《垒球百科全书》垒球是什么·棒球1号位
  • `asyncio.gather()` 是什么
  • 深度强化学习框架DI-engine
  • Java大师成长计划之第27天:RESTful API设计与实现
  • 算法竞赛 Java 高精度 大数 小数 模版
  • MySQL故障排查域生产环境优化
  • IIR 巴特沃斯II型滤波器设计与实现
  • React Contxt详解
  • 孤立森林和随机森林主要区别
  • Java实现:如何在文件夹中查找重复文件
  • 如何从容应对面试?
  • vi实时查看日志