当前位置: 首页 > web >正文

策略梯度(policy gradient)直观理解

结合reinforce算法又了解了一下策略梯度算法,其实感觉这个名字很有误导性,从强化学习来看可以有value-based method和policy-based method。Q-learning和DQN这些算法都是学习价值函数,基于价值函数选取动作,是一种implicit的policy。但是后续的AC架构算法是explicitly学习一个policy,也就所actor network去直接输出动作,critic network更多的是辅助作用,去学习value function。所以策略梯度实际上是一个名词,策略的梯度,策略容易理解是学习一个policy,那么为什么需要梯度?因为梯度对应的梯度上升/下降方法是一种经典的优化方法可以优化policy让他达到最优。

policy gradient有不同的数学表达形式,但是最根本的直观理解,还是说找到一个策略,让这个策略在特定任务下生成的所有可能路径的期望回报最大。期望形式的表达可能还是有点抽象,但是我们具体化用加和符号来表达的话就容易理解了,比如我们一共有66条轨迹,每个轨迹对应一个总体回报Gi,每个轨迹都是概率发生的,那么66个轨迹就有66个概率,这个概率也就所策略生成该轨迹的概率,那么期望怎么算呢?概率相同情况下就是66个回报加在一起除以66。当概率不一样的时候,需要用每个轨迹的回报乘以对应轨迹生成概率。那么什么是最优策略呢?让回报最大的轨迹概率最大,因为在该情况下期望值最大。所以总的来说,policy gradient系列算法目的就是提高高回报轨迹出现的概率,这个概率是由policy控制的。

有了这个直观理解再往下推导就更加清晰了。所以在这类算法中,最优策略是优化目标,梯度是用来实现优化的手段。

http://www.xdnf.cn/news/3078.html

相关文章:

  • 文献分享:2023年美国FDA批准的治疗性抗体结构和功能
  • (01)Redis 的订阅发布Pub/Sub
  • 探索语音增强中的多尺度时间频率卷积网络(TFCM):代码解析与概念介绍
  • 【运维心得】银行运维交接的坑
  • 制作一款打飞机游戏33:碰撞体编辑
  • ollama运行qwen3
  • 【Leetcode 每日一题】2962. 统计最大元素出现至少 K 次的子数组
  • 如何对多维样本进行KS检验
  • UNIAPP项目记录
  • 【大厂实战】API网关进化史:从统一入口到智能AB分流,如何构建灰度无感知系统?
  • 【工具变量】上市公司30w+过度负债数据集(2004-2023年)
  • 【嘉立创EDA】如何无限制挖槽,快捷设计挖槽
  • Linux系统配置JDK
  • 哈工大《工程伦理》复习文档
  • 存储过程补充——定义条件、处理程序及游标使用
  • PID速度、电流、位置闭环
  • swagger2升级至openapi3的利器--swagger2openapi
  • Linux 用户管理
  • 数据处理方式 之 对数变换 和Box-Cox变换以及对应逆变换【深度学习】
  • JavaScript基础
  • 使用C# ASP.NET创建一个可以由服务端推送信息至客户端的WEB应用(1)
  • Qwen3术语解密
  • 【SAM2代码解析】数据集处理2
  • go打印金字塔
  • 探索行业的新可能 - 你有遇到这些挑战吗?
  • 创新应用 | 食堂餐牌显示的“秒变”革新
  • Python深度挖掘:openpyxl和pandas的使用详细
  • 优雅的酸碱中和反应动画演示工具
  • 仿腾讯会议——注册登录UI
  • docker 使用