当前位置：首页 > ai >正文

强化学习PPO算法学习记录

ai 2025/9/4 5:02:15

在这里插入图片描述

1. 四个模型：

Policy Model：我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。
Reference Model：一般也用SFT阶段得到的SFT模型做初始化，在训练过程中，它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”。（我们希望训练出来的Actor模型的输出分布和Ref模型的输出分布尽量相似，使用KL散度衡量两个输出分布的相似度，这个KL散度会用于后续loss的计算）
Reward Model：用于计算生成token At的即时收益，在RLHF过程中，它的参数是冻结的。
Value Model：用于预测期望总收益 Vt，和Actor模型一样，它需要参数更新。因为在t时刻，我们给不出客观存在的总收益，只能训练一个模型去预测它。

2. r，GAE，A

图中的r或者说rt的获得：训练模型的输出分布和ref模型的输出分布的KL散度*超参数 + reward 模型的输出。
在这里插入图片描述

GAE整合奖励（r）与价值（v），计算优势函数 A，指导策略优化：
在这里插入图片描述

3. 重要性权重（新旧策略概率比）

在PPO算法中，约束重要性权重有两种主要的约束方式：Clip机制和KL散度惩罚。
在这里插入图片描述

3.1 Clip机制

在这里插入图片描述

3.2 KL散度惩罚

在这里插入图片描述
将这个公式展开也就是：

4. actor loss 和 critic loss

这两个loss 分别用于优化 policy model 和 value model

如果用clip限制策略更新的幅度下的actor loss：

在这里插入图片描述

critic loss：

在这里插入图片描述

http://www.xdnf.cn/news/5005.html

相关文章：

并发设计模式实战系列(19)：监视器（Monitor）

支付宝沙盒模式商家转账经常出现响应异常: 解包错误

《微机原理》微机程序段计算机编程数据分区

修改docker为国内源

YOLOv12云端GPU谷歌免费版训练模型

访问网页的全过程（分步骤的详细解析）

【java反射修改注解属性】java 通过反射，动态修改注解的某个属性值

抖音到店摸着京东外卖过河

Go语言的宕机恢复，如何防止程序奔溃

UnityDots学习（五）

xxl-job简单入门使用教程

【WebGIS系列】WebGIS 开发相关的资源

地图、图表的制作要领

Spring Boot初级教程：从零搭建企业级Java应用

Milvus（18）：IVF_PQ、HNSW

如何利用爬虫获得1688商品详情：实战指南

HiklQQBot开源程序基于python的轻量qq官方机器人框架快速部署启动官方QQ机器人插件编写简单易懂支持小白AI一键生成插件

滑动窗口-窗口中的最大/小值-单调队列

强化学习三大基本方法-DP、MC、TD

英文单词词根记忆法：后缀 ology, onomy, graphy词根有哪些单词

websocketd 10秒教程

力扣热题——到达最后一个房间的最少时间 II

QML 图像变换（缩放、平移、旋转）

【RLHF】 Reward Model 和 Critic Model 在 RLHF 中的作用

AD新版本Skill的使用

SecureCRT网络穿透/代理

Python毕业设计219—基于python+Django+vue的房屋租赁系统(源代码+数据库+万字论文)

主题分析建模用法介绍

RocketMQ 深度解析：架构设计与最佳实践

JavaScript 模块系统全景解析