当前位置：首页 > backend >正文

强化学习理论基础：从Q-learning到PPO的算法演进（2）

backend 2025/6/28 15:47:01

文章目录

Policy gradient思想（REINFORCE算法）
优势函数
PPO（Proximal Policy Optimization）

Policy gradient思想（REINFORCE算法）

在这里插入图片描述

下面我们来探讨一下Policy gradient策略，也就是REINFORCE算法。

在玩剪刀石头布这个简单的游戏中，我们可以有不同的策略。一种是完全随机地出，毫无规律；另一种是根据对手上一轮出的来决定自己这一轮出什么。但是，我们如何去判断哪种策略更好呢？

这就需要引入两个重要概念：“轨迹”和“轨迹的回报期望”。

轨迹可以表示为S0，a1，r1，S1，a2，r2，S2……它记录了游戏过程中的状态、行动和获得的回报。

而轨迹的回报期望则用公式来表示为：

http://www.xdnf.cn/news/14735.html

相关文章：

RabbitMQ RPC模式Python示例

go写前端打包的自动化工具

oracle内存参数调整

【Redis】解码Redis中的list类型，基本命令，内部编码方式以及适用的场景

流程管理系统技术选型避坑指南（含开源）

优化 ArcPy 脚本性能

Jmeter并发测试和持续性压测

AI+实时计算如何赋能金融系统？DolphinDB 在国泰君安期货年度中期策略会的演讲

鸿蒙版FlutterSDK3.27.4可以使用了

报道称CoreWeave洽谈收购Core Scientific，后者涨超30%

人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等）

报表控件stimulsoft教程：在报表、仪表板和 PDF 表单自动生成缩略图

华为云鸿蒙应用入门级开发者认证实验（HCCDA-HarmonyOS Cloud Apps）

【缓存技术】深入分析如果使用好缓存及注意事项

C++（模板与容器）

python中学物理实验模拟：斜面受力分析

苍穹外卖day3--公共字段填充+新增菜品

python基于协同过滤的动漫推荐系统

【51单片机5毫秒定时器】2022-6-1

Linux 内核 TCP 的核心引擎：tcp_input.c 与 tcp_output.c 的协同之道

Miniconda+Jupyter+PyCharm初始环境配置

物联网与低代码：Node-RED如何赋能工业智能化与纵横智控的创新实践

【已解决】Android Studio gradle遇到unresolved reference错误

【机器学习深度学习】线性回归

【thinkphp5】Session和Cache记录微信accesstoken

【原创】【4】【辅助工具】基于视觉模型+FFmpeg+MoviePy实现短视频自动化二次编辑+多赛道

Gartner《敏捷化组织团队拓扑方法论》学习心得

[特殊字符]推客带货小程序解决方案——0门槛裂变营销，佣金赚不停！

华为交换机 USG6311E 新建 vlan

海澜之家旗下斯搏兹选择百胜软件，E3+企业中台持续为运动品牌业务发展赋能