当前位置: 首页 > news >正文

深度强化学习 | 详细推导随机/确定性策略梯度定理

目录

  • 0 专栏介绍
  • 1 基于策略优化的强化学习
  • 2 随机性策略梯度定理推导
  • 3 确定性策略梯度定理推导

0 专栏介绍

本专栏以贝尔曼最优方程等数学原理为根基,结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景,深入探讨如何将DRL与路径规划、动态避障等任务结合,包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节,旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用

🚀详情:《运动规划实战精讲:深度强化学习篇》


1 基于策略优化的强化学习

之前章节介绍的基于价值的强化学习具有以下缺陷:

  • 难以处理连续动作。基于价值的强化学习要求有限动作空间,否则需要额外补丁;
  • 无法生成随机策略。基于价值的强化学习本质上通过 π ∗ = a r g max ⁡ a ∈ A Q π ( s , a ) \pi ^*=\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right) π=argmaxaAQπ(s,a)从最优价值获得最优的确定性策略,而某些场合却需要随机策略;
  • 鲁棒性不足。强化学习获得的最优价值函数数值可能不稳定,某状态下两个动作间的价值差距可能处在较大,意味着微小的噪声可能导致最优策略的完全改变;

基于策略的强化学习(policy-based)框架中,智能体不再从价值函数间接获得策略,而是直接对策略 π ( a ∣ s ) \pi \left( a|s \right) π(as)这一条件概率分布建模(离散动作常用Softmax函数,连续动作常用高斯概率分布),改善了value-based强化学习模型的不足。

为了便于神经网络反向传播,需要计算策略的梯度。将策略参数化为 π θ ( a ∣ s ) \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) πθ(as),定义优化目标为累计回报

θ ∗ = a r g max ⁡ θ J ( θ ) = a r g max ⁡ θ V π θ ( s ) \boldsymbol{\theta }^*=\mathrm{arg}\max _{\boldsymbol{\theta }}J\left( \boldsymbol{\theta } \right) =\mathrm{arg}\max _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right) θ=argθmaxJ(θ)=argθmaxVπθ(s)

即给定初始状态 s \boldsymbol{s} s,需要调整 θ \boldsymbol{\theta } θ使策略 π θ \pi _{\boldsymbol{\theta }} πθ作用于 s \boldsymbol{s} s使其带来的回报最大。关于 θ \boldsymbol{\theta } θ的优化方式为策略梯度定理

2 随机性策略梯度定理推导

定理1:策略梯度满足
∇ θ V π θ ( s ) ∝ E [ Q π θ ( s , a ) ∇ θ ln ⁡ π θ ( a ∣ s ) ] \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) \right] θVπθ(s)E[Qπθ(s,a)θlnπθ(as)]
其中状态随机变量 s ∼ D π θ \boldsymbol{s}\sim D^{\pi _{\boldsymbol{\theta }}} sDπθ,动作随机变量 a ∼ π θ ( a ∣ s ) \boldsymbol{a}\sim \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) aπθ(as) D π θ D^{\pi _{\boldsymbol{\theta }}} Dπθ是由 π θ \pi _{\boldsymbol{\theta }} πθ定义的归一化折扣状态分布。

证明: 根据全概率公式有

V π θ ( s ) = ∑ a ∈ A π θ ( s , a ) Q π θ ( s , a ) V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)} Vπθ(s)=aAπθ(s,a)Qπθ(s,a)

代入 Q π θ ( s , a ) = ∑ s ′ ∈ S P s → s ′ a ( R s → s ′ a + γ V π θ ( s ′ ) ) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\left( R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}+\gamma V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \right)} Qπθ(s,a)=sSPssa(Rssa+γVπθ(s))后两边同时求梯度

∇ θ V π θ ( s ) = ∑ a ∈ A ( ∇ θ π θ ( s , a ) Q π θ ( s , a ) + π θ ( s , a ) ∇ θ Q π θ ( s , a ) ) = ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) + γ ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∇ θ V π θ ( s ′ ) \begin{aligned}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) &=\sum_{\boldsymbol{a}\in A}{\left( \nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) +\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \right)}\\&=\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}+\gamma \sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)}}\end{aligned} θVπθ(s)=aA(θπθ(s,a)Qπθ(s,a)+πθ(s,a)θQπθ(s,a))=aAθπθ(s,a)Qπθ(s,a)+γaAπθ(s,a)sSPssaθVπθ(s)

这里导出了由 ∇ θ V π θ ( s ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right) θVπθ(s)到下一个状态 ∇ θ V π θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s' \right) θVπθ(s)的递推公式

∇ θ V π θ ( s ) = ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) ⏟ ① + γ ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) ⏟ ② + γ 2 ∑ a ∈ A π θ ( s , a ) ∑ s ′ ∈ S P s → s ′ a ∑ a ′ ∈ A π θ ( s ′ , a ′ ) ∑ s ′ ′ ∈ S P s ′ → s ′ ′ a ′ ( ⋯ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\underset{①}{\underbrace{{ \sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}}}}+\underset{②}{\underbrace{{\gamma \sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)}}}}\\+\gamma ^2\sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) \sum_{\boldsymbol{s}''\in S}{P_{\boldsymbol{s}'\rightarrow \boldsymbol{s}''}^{\boldsymbol{a}'}\left( \cdots \right)}} θVπθ(s)= aAθπθ(s,a)Qπθ(s,a)+ γaAπθ(s,a)sSPssaaAθπθ(s,a)Qπθ(s,a)+γ2aAπθ(s,a)sSPssaaAπθ(s,a)s′′SPss′′a()

定义在策略 π \pi π作用下从初始状态 s \boldsymbol{s} s t t t步转移到 s ′ \boldsymbol{s}' s的状态转移概率为

P r ( s → s ′ , t , π ) Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi \right) Pr(ss,t,π)

考察①式可得

① = ∑ s ′ ∈ S P r ( s → s ′ , 0 , π θ ) ∑ a ∈ A ∇ θ π θ ( s , a ) Q π θ ( s , a ) ① =\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',0,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)} =sSPr(ss,0,πθ)aAθπθ(s,a)Qπθ(s,a)

考察②式可得

② = γ ∑ s ′ ∈ S P r ( s → s ′ , 1 , π θ ) ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) ② =\gamma \sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',1,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)} =γsSPr(ss,1,πθ)aAθπθ(s,a)Qπθ(s,a)

按规律递推可得

∇ θ V π θ ( s ) = ∑ t γ t ∑ s ′ ∈ S P r ( s → s ′ , t , π θ ) ∑ a ′ ∈ A ∇ θ π θ ( s ′ , a ′ ) Q π θ ( s ′ , a ′ ) \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi _{\boldsymbol{\theta }} \right)}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)} θVπθ(s)=tγtsSPr(ss,t,πθ)aAθπθ(s,a)Qπθ(s,a)

设由策略 π \pi π诱导的折扣状态分布(discounted state distribution)

d π ( s ) = ∑ t γ t P r ( s 0 → s , t , π ) d^{\pi}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^tPr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)} dπ(s)=tγtPr(s0s,t,π)

考虑到

∑ s d π ( s ) = ∑ t γ t ∑ s P r ( s 0 → s , t , π ) = ∑ t γ t = 1 1 − γ \sum_{\boldsymbol{s}}{d^{\pi}\left( \boldsymbol{s} \right)}=\sum_t{\gamma ^t\sum_{\boldsymbol{s}}{Pr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)}}=\sum_t{\gamma ^t}=\frac{1}{1-\gamma} sdπ(s)=tγtsPr(s0s,t,π)=tγt=1γ1

所以 d π ( s ) d^{\pi}\left( \boldsymbol{s} \right) dπ(s)并不是一个概率分布,需要补偿系数 ( 1 − γ ) \left( 1-\gamma \right) (1γ)得到归一化折扣分布

D π ( s ) = ( 1 − γ ) d π ( s ) D^{\pi}\left( \boldsymbol{s} \right) =\left( 1-\gamma \right) d^{\pi}\left( \boldsymbol{s} \right) Dπ(s)=(1γ)dπ(s)

从而

∇ θ V π θ ( s ) = 1 1 − γ E s D π θ [ ∑ a ′ ∈ A π θ ( s , a ′ ) ∇ θ ln ⁡ π θ ( s , a ′ ) Q π θ ( s , a ′ ) ] ∝ E s D π θ , a π θ [ Q π θ ( s , a ) ∇ θ ln ⁡ π θ ( s , a ) ] \nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}}\left[ \sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a}' \right)} \right] \\\propto \mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}, \boldsymbol{a}~\pi _{\boldsymbol{\theta }}}\left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \right] θVπθ(s)=1γ1Es Dπθ[aAπθ(s,a)θlnπθ(s,a)Qπθ(s,a)]Es Dπθ,a πθ[Qπθ(s,a)θlnπθ(s,a)]

证毕

在这里插入图片描述

3 确定性策略梯度定理推导

**定理2:**策略梯度满足
∇ θ V μ θ ( s ) ∝ E [ ∇ θ μ θ ( s ) ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ] \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ \nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{} \right] θVμθ(s)E[θμθ(s)aQμθ(s,a)a=μθ(s)]
其中状态随机变量 s ∼ D μ θ \boldsymbol{s}\sim D^{\mu _{\boldsymbol{\theta }}} sDμθ,动作 a = μ θ ( s ) \boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) a=μθ(s) D μ θ D^{\mu _{\boldsymbol{\theta }}} Dμθ是由 μ θ \mu _{\boldsymbol{\theta }} μθ定义的归一化折扣状态分布。

证明: 与随机策略梯度定理证明不同,确定性策略导致价值函数和动作-价值函数的等价性

V μ θ ( s ) = Q μ θ ( s , a ) ∣ a = μ θ ( s ) = r ( s , μ θ ( s ) ) + γ ∑ s ′ ∈ S P s → s ′ μ θ ( s ) V μ θ ( s ′ ) V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}=r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) Vμθ(s)=Qμθ(s,a)a=μθ(s)=r(s,μθ(s))+γsSPssμθ(s)Vμθ(s)

其中 r ( s , μ θ ( s ) ) = ∑ s ′ ∈ S P s → s ′ μ θ ( s ) R s → s ′ μ θ ( s ) r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}} r(s,μθ(s))=sSPssμθ(s)Rssμθ(s)是单步奖赏函数。根据复合函数链式求导法则

∇ θ V μ θ ( s ) = ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ∇ θ μ θ ( s ) + γ ∑ s ′ ∈ S P s → s ′ μ θ ( s ) ∇ θ V μ θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)} θVμθ(s)=aQμθ(s,a)a=μθ(s)θμθ(s)+γsSPssμθ(s)θVμθ(s)

接着按照随机策略梯度定理证明过程中的递推展开可得

∇ θ V μ θ ( s ) = ∑ t γ t ∑ s ′ ∈ S P r ( s → s ′ , t , μ θ ) ∇ a Q μ θ ( s ′ , a ) ∣ a = μ θ ( s ′ ) ∇ θ μ θ ( s ′ ) \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\mu _{\boldsymbol{\theta }} \right)}}\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right) θVμθ(s)=tγtsSPr(ss,t,μθ)aQμθ(s,a)a=μθ(s)θμθ(s)

引入归一化折扣分布可得

∇ θ V μ θ ( s ) = 1 1 − γ ∑ s ′ ∈ S D μ θ ( s ′ ) ∇ a Q μ θ ( s ′ , a ) ∣ a = μ θ ( s ′ ) ∇ θ μ θ ( s ′ ) ∝ E s D μ θ [ ∇ a Q μ θ ( s , a ) ∣ a = μ θ ( s ) ∇ θ μ θ ( s ) ] \nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\sum_{\boldsymbol{s}'\in S}{D^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}\\\propto \mathbb{E} _{\boldsymbol{s}~D^{\mu _{\boldsymbol{\theta }}}}\left[ \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right] θVμθ(s)=1γ1sSDμθ(s)aQμθ(s,a)a=μθ(s)θμθ(s)Es Dμθ[aQμθ(s,a)a=μθ(s)θμθ(s)]

证毕。


🔥 更多精彩专栏

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇
http://www.xdnf.cn/news/975763.html

相关文章:

  • Flutter setState() 状态管理详细使用指南
  • 使用 C/C++、OpenCV 和 Libevent 构建联网人脸识别考勤系统 [特殊字符]‍[特殊字符]
  • 电机控制基础,小白入门篇
  • 第三章支线六 ·数据幻域 · 状态管理与数据流
  • Android 默认第三方app运行权限(android11-13)
  • 小程序 UI 设计,怎样在方寸间实现高效交互
  • Fastapi + vue3 自动化测试平台(6):AI + Web UI的完美结合
  • 把下载的ippicv.tgz放入<opencv_build_dir>/3rdparty/ippicv/download/中cmake依然无法识别
  • 快速了解JVM的GC历史
  • 【Lua热更新知识】学习三 XLua学习
  • 【AI 时代,食品科技远未触及天花板,新一轮颠覆性突破正在酝酿】
  • 神舟笔记本Control Center无法打开风扇设置
  • Web 架构之服务网格(Service Mesh)实战解析
  • 机器视觉开发-边缘提取
  • Python爬虫(54)Python数据治理全攻略:从爬虫清洗到NLP情感分析的实战演进
  • 2025-6-9Vue3快速上手
  • ubuntu22 arm 编译安装input leap
  • 数据的聚合
  • 审计效率升级!Word一键批量给数字添加千位分隔符
  • 传统机器学习与大模型 + Prompt 的对比示例
  • eureka如何绕过 LVS 的虚拟 IP(VIP),直接注册服务实例的本机真实 IP
  • SpringMVC异步处理Servlet
  • Wyn 商业智能与 3D 大屏的深度融合应用
  • 在ARM 架构的 Mac 上 更新Navicat到17后连接Oracle时报错:未加载 Oracle 库。
  • 高频面试之6Hive
  • 机器学习算法——集成学习
  • 电路图识图基础知识-变频器控制电动机系统解析(二十四)
  • 渗透测试PortSwigger Labs:遭遇html编码和转义符的反射型XSS
  • uniapp 云打包 iOS 应用上传到 app store 商店的过程
  • ZZU-ARM汇编语言实验 34