当前位置：首页 > web >正文

策略梯度(policy gradient)直观理解

web 2025/7/3 17:21:36

结合reinforce算法又了解了一下策略梯度算法，其实感觉这个名字很有误导性，从强化学习来看可以有value-based method和policy-based method。Q-learning和DQN这些算法都是学习价值函数，基于价值函数选取动作，是一种implicit的policy。但是后续的AC架构算法是explicitly学习一个policy，也就所actor network去直接输出动作，critic network更多的是辅助作用，去学习value function。所以策略梯度实际上是一个名词，策略的梯度，策略容易理解是学习一个policy，那么为什么需要梯度？因为梯度对应的梯度上升/下降方法是一种经典的优化方法可以优化policy让他达到最优。

policy gradient有不同的数学表达形式，但是最根本的直观理解，还是说找到一个策略，让这个策略在特定任务下生成的所有可能路径的期望回报最大。期望形式的表达可能还是有点抽象，但是我们具体化用加和符号来表达的话就容易理解了，比如我们一共有66条轨迹，每个轨迹对应一个总体回报Gi，每个轨迹都是概率发生的，那么66个轨迹就有66个概率，这个概率也就所策略生成该轨迹的概率，那么期望怎么算呢？概率相同情况下就是66个回报加在一起除以66。当概率不一样的时候，需要用每个轨迹的回报乘以对应轨迹生成概率。那么什么是最优策略呢？让回报最大的轨迹概率最大，因为在该情况下期望值最大。所以总的来说，policy gradient系列算法目的就是提高高回报轨迹出现的概率，这个概率是由policy控制的。

有了这个直观理解再往下推导就更加清晰了。所以在这类算法中，最优策略是优化目标，梯度是用来实现优化的手段。

查看全文

http://www.xdnf.cn/news/3078.html