当前位置: 首页 > ai >正文

强化学习PPO算法学习记录

在这里插入图片描述

1. 四个模型:

  • Policy Model:我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。
  • Reference Model:一般也用SFT阶段得到的SFT模型做初始化,在训练过程中,它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”。(我们希望训练出来的Actor模型的输出分布和Ref模型的输出分布尽量相似,使用KL散度衡量两个输出分布的相似度,这个KL散度会用于后续loss的计算)
  • Reward Model:用于计算生成token At的即时收益,在RLHF过程中,它的参数是冻结的。
  • Value Model:用于预测期望总收益 Vt,和Actor模型一样,它需要参数更新。因为在t时刻,我们给不出客观存在的总收益,只能训练一个模型去预测它。

2. r,GAE,A

图中的r或者说rt的获得:训练模型的输出分布和ref模型的输出分布的KL散度*超参数 + reward 模型的输出。
在这里插入图片描述
在这里插入图片描述

GAE整合奖励(r)与价值(v),计算优势函数 A,指导策略优化:
在这里插入图片描述

3. 重要性权重(新旧策略概率比)

在PPO算法中,​约束重要性权重 有两种主要的约束方式​:Clip机制和KL散度惩罚。
在这里插入图片描述

3.1 Clip机制

在这里插入图片描述

3.2 KL散度惩罚

在这里插入图片描述
将这个公式展开也就是:
在这里插入图片描述

4. actor loss 和 critic loss

这两个loss 分别用于优化 policy model 和 value model

  1. 如果用clip限制策略更新的幅度下的actor loss:

在这里插入图片描述

  1. critic loss:

在这里插入图片描述

http://www.xdnf.cn/news/5005.html

相关文章:

  • 并发设计模式实战系列(19):监视器(Monitor)
  • 支付宝沙盒模式商家转账经常出现 响应异常: 解包错误
  • 《微机原理》微机程序段 计算机编程数据分区
  • 修改docker为国内源
  • YOLOv12云端GPU谷歌免费版训练模型
  • 访问网页的全过程(分步骤的详细解析)
  • 【java反射修改注解属性】java 通过反射,动态修改注解的某个属性值
  • 抖音到店摸着京东外卖过河
  • Go语言的宕机恢复,如何防止程序奔溃
  • UnityDots学习(五)
  • xxl-job简单入门使用教程
  • 【WebGIS系列】WebGIS 开发相关的资源
  • 地图、图表的制作要领
  • Spring Boot初级教程:从零搭建企业级Java应用
  • Milvus(18):IVF_PQ、HNSW
  • 如何利用爬虫获得1688商品详情:实战指南
  • HiklQQBot开源程序基于python的轻量qq官方机器人框架 快速部署启动官方QQ机器人 插件编写简单易懂 支持小白AI一键生成插件
  • 滑动窗口-窗口中的最大/小值-单调队列
  • 强化学习三大基本方法-DP、MC、TD
  • 英文单词词根记忆法:后缀 ology, onomy, graphy词根有哪些单词
  • websocketd 10秒教程
  • 力扣热题——到达最后一个房间的最少时间 II
  • QML 图像变换(缩放、平移、旋转)
  • 【RLHF】 Reward Model 和 Critic Model 在 RLHF 中的作用
  • AD新版本Skill的使用
  • SecureCRT网络穿透/代理
  • Python毕业设计219—基于python+Django+vue的房屋租赁系统(源代码+数据库+万字论文)
  • 主题分析建模用法介绍
  • RocketMQ 深度解析:架构设计与最佳实践
  • JavaScript 模块系统全景解析