详解受约束的强化学习(三、公式关系串联)
目录
- 串联全文公式关联
- 论文第五部分
- 论文第六部分
- 总体联系
串联全文公式关联
由于这里面公式比较多,我们再加深一下公式的关系。
论文第五部分
第5部分是CPO算法的理论核心,解决约束马尔可夫决策过程(CMDP)中的优化问题。主要作用包括:
-
定义CMDP优化:在最大化奖励 J ( π ) J(\pi) J(π)的同时,确保约束 J C i ( π ) ≤ d i J_{C_i}(\pi) \leq d_i JCi(π)≤di(如安全性)。
-
建立性能界限:通过定理和推论提供新旧策略在奖励和成本上的差异界限,支持代理优化。
-
引入信任区域:限制策略差异(如KL散度),确保更新稳定。
-
指导实际实现:为第6部分的算法实现提供理论基础。
-
CMDP优化问题(公式3)
π k + 1 = arg max π J ( π ) \pi_{k+1} = \arg \max_{\pi} J(\pi) πk+1=argπmaxJ(π) s.t. J C i ( π ) ≤ d i , i = 1 , … , m \text{s.t.} \quad J_{C_i}(\pi) \leq d_i, \quad i=1,\ldots,m s.t.JCi(π)≤di,i=1,…,m D ( π , π k ) ≤ δ D(\pi, \pi_k) \leq \delta D(π,πk)≤δ
作用:定义CPO的目标,但直接计算 J ( π ) J(\pi) J(π)和 J C i ( π ) J_{C_i}(\pi) JCi(π)需要离线策略评估,难以实现。
-
引理2:初步界限
J ( π ′ ) − J ( π ) ≥ 1 1 − γ ( L π , f ( π ′ ) − 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π′)−J(π)≥1−γ1(Lπ,f(π′)−2ϵfπ′DTV(dπ′∥dπ))
J ( π ′ ) − J ( π ) ≤ 1 1 − γ ( L π , f ( π ′ ) + 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \leq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π′)−J(π)≤1−γ1(Lπ,f(π′)+2ϵfπ′DTV(dπ′∥dπ))
其中 L π , f ( π ′ ) = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ ( π ′ ( a ∣ s ) π ( a ∣ s ) − 1 ) δ f ( s , a , s ′ ) ] L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right] Lπ,f(π′)=Es∼dπ,a∼π′,s′∼P[(π(a∣s)π′(a∣s)−1)δf(s,a,s′)], δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s′)=R(s,a,s′)+γf(s′)−f(s)。
关系:将回报差异转化为代理函数 L π , f ( π ′ ) L_{\pi,f}(\pi') Lπ,f(π′)和误差项(与策略之间的总变差距离相关), D T V ( d π ′ ∥ d π ) = 1 2 ∑ s ∣ d π ′ ( s ) − d π ( s ) ∣ D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)| DTV(dπ′∥dπ)=21∑s∣dπ′(s)−dπ(s)∣是状态分布的总变差距离, d π ( s ) d^\pi(s) dπ(s)是折扣未来状态分布, 所以 D T V ( d π ′ ∥ d π ) D_{TV}(d^{\pi'} \| d^\pi) DTV(dπ′∥dπ)是在捕捉状态分布差异。
- L π , f ( π ′ ) = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ ( π ′ ( a ∣ s ) π ( a ∣ s ) − 1 ) δ f ( s , a , s ′ ) ] L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right] Lπ,f(π′)=Es∼dπ,a∼π′,s′∼P[(π(a∣s)π′(a∣s)−1)δf(s,a,s′)]
- δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s′)=R(s,a,s′)+γf(s′)−f(s), δ f ( s , a , s ′ ) \delta_f(s,a,s') δf(s,a,s′)是时序误差(TD error)
- ϵ f π ′ = max s ∣ E a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] ∣ \epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right| ϵfπ′=maxs∣Ea∼π′,s′∼P[δf(s,a,s′)]∣,是一个误差项
-
引理3:状态分布到策略差异
∥ d π ′ − d π ∥ 1 ≤ 2 γ 1 − γ E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] ∥dπ′−dπ∥1≤1−γ2γEs∼dπ[DTV(π′∥π∣s)]
-
D T V ( π ′ ∥ π ∣ s ) = 1 2 ∑ a ∣ π ′ ( a ∣ s ) − π ( a ∣ s ) ∣ D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)| DTV(π′∥π∣s)=21∑a∣π′(a∣s)−π(a∣s)∣,是状态 s s s下的总变差距离
关系:将状态分布差异转换为策略差异 D T V ( π ′ ∥ π ∣ s ) D_{TV}(\pi' \|\pi | s) DTV(π′∥π∣s),使界限更实用。
-
定理1:综合界限
D π , f + ( π ′ ) ≥ J ( π ′ ) − J ( π ) ≥ D π , f − ( π ′ ) D_{\pi,f}^{+}(\pi') \geq J(\pi') - J(\pi) \geq D_{\pi,f}^{-}(\pi') Dπ,f+(π′)≥J(π′)−J(π)≥Dπ,f−(π′)
其中 D π , f ± ( π ′ ) = L π , f ( π ′ ) 1 − γ ± 2 γ ϵ f π ′ ( 1 − γ ) 2 E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] Dπ,f±(π′)=1−γLπ,f(π′)±(1−γ)22γϵfπ′Es∼dπ[DTV(π′∥π∣s)]。
关系:结合引理2和引理3,用策略差异替换状态分布差异,支持代理优化。
-
推论1:奖励优化
J ( π ′ ) − J ( π ) ≥ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A π ( s , a ) − 2 γ ϵ π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A^\pi(s,a) - \frac{2 \gamma \epsilon^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] J(π′)−J(π)≥1−γ1Es∼dπ,a∼π′[Aπ(s,a)−1−γ2γϵπ′DTV(π′∥π∣s)]
关系:特化定理1, A π ( s , a ) A^\pi(s,a) Aπ(s,a)作为奖励的代理函数,误差项控制近似准确性。
-
推论2:约束成本
J C i ( π ′ ) − J C i ( π ) ≤ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A C i π ( s , a ) + 2 γ ϵ C i π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J_{C_i}(\pi') - J_{C_i}(\pi) \leq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A_{C_i}^\pi(s,a) + \frac{2 \gamma \epsilon_{C_i}^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] JCi(π′)−JCi(π)≤1−γ1Es∼dπ,a∼π′[ACiπ(s,a)+1−γ2γϵCiπ′DTV(π′∥π∣s)]
关系:为约束成本提供上界,支持约束条件的近似。
-
推论3:KL散度
E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] ≤ 1 2 E s ∼ d π [ D K L ( π ′ ∥ π ∣ s ) ] \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] \leq \sqrt{\frac{1}{2} \mathbb{E}_{s \sim d^\pi} \left[ D_{KL}(\pi' \|\pi | s) \right]} Es∼dπ[DTV(π′∥π∣s)]≤21Es∼dπ[DKL(π′∥π∣s)]
关系:将 D T V D_{TV} DTV转换为 D K L D_{KL} DKL,与信任区域约束兼容。
-
命题1:奖励保证
J ( π k + 1 ) − J ( π k ) ≥ − 2 δ γ ϵ π k + 1 ( 1 − γ ) 2 J(\pi_{k+1}) - J(\pi_k) \geq \frac{-\sqrt{2 \delta} \gamma \epsilon^{\pi_{k+1}}}{(1-\gamma)^2} J(πk+1)−J(πk)≥(1−γ)2−2δγϵπk+1
关系:基于推论1和推论3,保证信任区域更新的奖励下界。
-
命题2:约束保证
J C i ( π k + 1 ) ≤ d i + 2 δ γ ϵ C i π k + 1 ( 1 − γ ) 2 J_{C_i}(\pi_{k+1}) \leq d_i + \frac{\sqrt{2 \delta} \gamma \epsilon_{C_i}^{\pi_{k+1}}}{(1-\gamma)^2} JCi(πk+1)≤di+(1−γ)22δγϵCiπk+1
关系:基于推论2和推论3,保证约束违反的上界。
-
CPO更新
π k + 1 = arg max π ∈ Π θ E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] πk+1=argπ∈ΠθmaxEs∼dπk,a∼π[Aπk(s,a)] s.t. J C i ( π k ) + 1 1 − γ E s ∼ d π k , a ∼ π [ A C i π k ( s , a ) ] ≤ d i \text{s.t.} \quad J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A_{C_i}^{\pi_k}(s,a) \right] \leq d_i s.t.JCi(πk)+1−γ1Es∼dπk,a∼π[ACiπk(s,a)]≤di D ~ K L ( π ∥ π k ) ≤ δ \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta D~KL(π∥πk)≤δ
关系:整合推论1-2的代理函数和推论3的KL约束,形成CPO的核心优化。
总结:公式从回报差异(引理2)到策略差异(定理1、推论3),再到奖励和约束的代理优化(推论1-2、命题1-2),最终形成CPO更新。
论文第六部分
第6部分将第5部分的理论转化为高效算法,解决高维策略的优化问题。主要作用包括:
- 高效计算:通过线性化和对偶问题简化CPO更新。
- 错误处理:提供恢复策略应对不可行情况。
- 鲁棒性增强:通过成本整形提高约束满足的稳定性。
- 理论到实践:将第5部分的界限应用于实际算法。
直观理解:像将“设计蓝图”变为“实际设备”,确保CPO在复杂任务中可行。
-
CPO近似优化(公式11)
θ k + 1 = arg max θ g T ( θ − θ k ) \theta_{k+1} = \arg \max_{\theta} g^T (\theta - \theta_k) θk+1=argθmaxgT(θ−θk) s.t. c i + b i T ( θ − θ k ) ≤ 0 \text{s.t.} \quad c_i + b_i^T (\theta - \theta_k) \leq 0 s.t.ci+biT(θ−θk)≤0 1 2 ( θ − θ k ) T H ( θ − θ k ) ≤ δ \frac{1}{2} (\theta - \theta_k)^T H (\theta - \theta_k) \leq \delta 21(θ−θk)TH(θ−θk)≤δ
关系:线性化公式10的目标和约束,二次近似KL散度,降低计算复杂度。
-
对偶问题(公式12-13)
max λ ≥ 0 , ν ≥ 0 − 1 2 λ ( g T H − 1 g − 2 r T ν + ν T S ν ) + ν T c − λ δ 2 \max_{\lambda \geq 0, \nu \geq 0} \frac{-1}{2 \lambda} \left( g^T H^{-1} g - 2 r^T \nu + \nu^T S \nu \right) + \nu^T c - \frac{\lambda \delta}{2} λ≥0,ν≥0max2λ−1(gTH−1g−2rTν+νTSν)+νTc−2λδ θ ∗ = θ k + 1 λ ∗ H − 1 ( g − B ν ∗ ) \theta^* = \theta_k + \frac{1}{\lambda^*} H^{-1} (g - B \nu^*) θ∗=θk+λ∗1H−1(g−Bν∗)
关系:公式12-13通过对偶形式求解公式11,将高维优化简化为低维问题。
-
单约束解析解(定理2)
θ ∗ = θ k − 1 λ ∗ H − 1 ( g + ν ∗ b ) \theta^* = \theta_k - \frac{1}{\lambda^*} H^{-1} (g + \nu^* b) θ∗=θk−λ∗1H−1(g+ν∗b)
关系:特化公式13,针对单约束提供解析解,简化计算。
-
恢复策略(公式14)
θ ∗ = θ k − 2 δ b T H − 1 b H − 1 b \theta^* = \theta_k - \sqrt{\frac{2 \delta}{b^T H^{-1} b}} H^{-1} b θ∗=θk−bTH−1b2δH−1b
关系:当公式11不可行时,沿约束梯度恢复,保持KL散度约束。
-
成本整形(公式15)
C i + ( s , a , s ′ ) = C i ( s , a , s ′ ) + Δ i ( s , a , s ′ ) C_i^+(s,a,s') = C_i(s,a,s') + \Delta_i(s,a,s') Ci+(s,a,s′)=Ci(s,a,s′)+Δi(s,a,s′)
关系:修改约束成本,增强公式11约束的鲁棒性,支持推论2的上界。
总结:公式11近似公式10,公式12-13和定理2高效求解,公式14处理错误,公式15提高鲁棒性,共同实现CPO算法。
总体联系
第5部分的理论界限(引理2 → 定理1 → 推论1-3 → 命题1-2 → 公式10)定义了CPO的优化框架,第6部分的公式(公式11 → 公式12-13 → 定理2 → 公式14 → 公式15)将理论转化为高效算法,确保计算可行性和约束满足。