当前位置: 首页 > news >正文

大模型(LLMs)强化学习—— PPO

一、大语言模型RLHF中的PPO主要分哪些步骤?

二、举例描述一下 大语言模型的RLHF?

三、大语言模型RLHF 采样篇

  1. 什么是 PPO 中 采样过程?
  2. 介绍一下 PPO 中 采样策略?
  3. PPO 中 采样策略中,如何评估“收益”?

一、大语言模型RLHF中的PPO主要分哪些步骤?

大语言模型RLHF中的PPO 分为:

  1. 采样
  2. 反馈
  3. 学习

对应的实现逻辑如下:

二、举例描述一下 大语言模型的RLHF

大语言模型的RLHF,实际上是模型先试错再学习的过程。大语言模型的RLHF 好比是:老师与学生的角色

  1. 我们扮演着老师的角色,给出有趣的问题。模型则会像小学生一样,不断尝试给出答案。
  2. 模型会根据我们给出的问题,写出它觉得正确的答案,但是这些答案不一定是真的答案,需要我们结合正确答案进行打分。如果它表现得好,就会给予它高声赞扬;如果它表现不佳,我们则会给予它耐心的指导和反馈,帮助它不断改进,直到达到令人满意的水平。

三、大语言模型RLHF 采样篇

  1. 什么是 PPO 中 采样过程?
    PPO 中 采样过程:学生回答问题的过程,是模型根据提示(prompt)输出回答(response)的过程,或者说是模型自行生产训练数据的过程。
    eg:

  1. 介绍一下 PPO 中 采样策略?
    PPO 中 采样工作 通过一种策略(policy:policy由两个模型组成,一个叫做演员模型(Actor),另一个叫做评论家模型(Critic)。它们就像是学生大脑中的两种意识,一个负责决策,一个负责总结得失
    演员:我们想要训练出来的大模型。在用PPO训练它之前,它就是RLHF的第一步训练出来的SFT
    (Supervised Fine-Tuning)model。输入一段上下文,它将输出下一个token的概率分布。
    评论家:强化学习的辅助模型,输入一段上下文,它将输出下一个token的“收益”。
  2. PPO 中 采样策略中,如何评估收益

从下一个token开始,模型能够获得的总奖励(浮点数标量)。这里说的奖励包括Reward Model给出的奖励。

http://www.xdnf.cn/news/195481.html

相关文章:

  • 【angular19】入门基础教程(一):项目的搭建与启动
  • 如何查看电脑电池使用情况
  • 北京市延庆区“禅苑茶事“非遗项目挂牌及茶事院正式启用
  • Adobe Lightroom Classic v14.3.0.8 一款专业的数字摄影后期处理软件
  • 测试反馈陷入死循环?5大策略拆解新旧Bug难题
  • if consteval
  • 多模态大型模型,实现以人为中心的精细视频理解
  • [原创](现代Delphi 12指南):[macOS 64bit App开发]: 跨平台开发同样支持retain()引用计数器处理.
  • 【氮化镓】质子辐照对 GaN-on-GaN PiN 二极管电导调制的影响
  • 后端Web实战之登录认证,JWT令牌,过滤器Filter,拦截器Interceptor一篇文章so easy!!!
  • 【python】-基础语法1
  • 颖儿生活提案:用海信璀璨505U6真空冰箱重建都市鲜食自由
  • 蓝桥杯 3. 压缩字符串
  • 树莓派5+edge-tts 语音合成并进行播放测试
  • EtherCAT转EtherNet/IP网关CEI-382实现罗克韦尔PLC与和利时伺服电机通讯
  • FFmpeg源码学习---ffmpeg
  • 《Operating System Concepts》阅读笔记:p821-p897
  • awk之使用详解(Detailed Explanation of Using AWK)
  • python10天- 文件操作模式详解
  • C++高性能日志库spdlog
  • 深入浅出限流算法(二):更平滑的滑动窗口
  • Python 如何操作数据库,让你使用 DeepSeek 开发数据库应用更加快 (Orm Bee)
  • MySQL复合查询
  • HTML 从标签到动态效果的基础
  • react-navigation-draw抽屉导航
  • ArkTS基础实验 (二)
  • 数字人Live_Talking的搭建和使用
  • OpenResty深度解析:从卓伊凡的”隐形主流”论看其深度原理与应用生态-卓伊凡
  • 深入理解java线程池
  • stm32 阻塞式延时 与 非阻塞式延时