当前位置：首页 > backend >正文

详解受约束的强化学习(三、公式关系串联)

backend 2025/7/13 18:10:56

串联全文公式关联

由于这里面公式比较多,我们再加深一下公式的关系。

论文第五部分

第5部分是CPO算法的理论核心，解决约束马尔可夫决策过程（CMDP）中的优化问题。主要作用包括：

定义CMDP优化：在最大化奖励 $J(\pi)$ 的同时，确保约束 $J_{C_i}(\pi) \leq d_i$ （如安全性）。
建立性能界限：通过定理和推论提供新旧策略在奖励和成本上的差异界限，支持代理优化。
引入信任区域：限制策略差异（如KL散度），确保更新稳定。
指导实际实现：为第6部分的算法实现提供理论基础。
CMDP优化问题（公式3）

$\pi_{k+1} = \arg \max_{\pi} J(\pi)$ $\text{s.t.} \quad J_{C_i}(\pi) \leq d_i, \quad i=1,\ldots,m$ $D(\pi, \pi_k) \leq \delta$

作用：定义CPO的目标，但直接计算 $J(\pi)$ 和 $J_{C_i}(\pi)$ 需要离线策略评估，难以实现。
引理2：初步界限

$J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right)$

$J(\pi') - J(\pi) \leq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right)$

其中 $L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right]$ ， $\delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s)$ 。

关系：将回报差异转化为代理函数 $L_{\pi,f}(\pi')$ 和误差项（与策略之间的总变差距离相关）， $D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)|$ 是状态分布的总变差距离， $d^\pi(s)$ 是折扣未来状态分布, 所以 $D_{TV}(d^{\pi'} \| d^\pi)$ 是在捕捉状态分布差异。

$L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right]$
$\delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s)$ ， $\delta_f(s,a,s')$ 是时序误差（TD error）
$\epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right|$ ，是一个误差项

引理3：状态分布到策略差异

$\| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$

$D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)|$ ，是状态 $s$ 下的总变差距离

关系：将状态分布差异转换为策略差异 $D_{TV}(\pi' \|\pi | s)$ ，使界限更实用。

定理1：综合界限

$D_{\pi,f}^{+}(\pi') \geq J(\pi') - J(\pi) \geq D_{\pi,f}^{-}(\pi')$

其中 $D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right]$ 。

关系：结合引理2和引理3，用策略差异替换状态分布差异，支持代理优化。
推论1：奖励优化

$J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A^\pi(s,a) - \frac{2 \gamma \epsilon^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right]$

关系：特化定理1， $A^\pi(s,a)$ 作为奖励的代理函数，误差项控制近似准确性。
推论2：约束成本

$J_{C_i}(\pi') - J_{C_i}(\pi) \leq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A_{C_i}^\pi(s,a) + \frac{2 \gamma \epsilon_{C_i}^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right]$

关系：为约束成本提供上界，支持约束条件的近似。
推论3：KL散度

$\mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] \leq \sqrt{\frac{1}{2} \mathbb{E}_{s \sim d^\pi} \left[ D_{KL}(\pi' \|\pi | s) \right]}$

关系：将 $D_{TV}$ 转换为 $D_{KL}$ ，与信任区域约束兼容。
命题1：奖励保证

$J(\pi_{k+1}) - J(\pi_k) \geq \frac{-\sqrt{2 \delta} \gamma \epsilon^{\pi_{k+1}}}{(1-\gamma)^2}$

关系：基于推论1和推论3，保证信任区域更新的奖励下界。
命题2：约束保证

$J_{C_i}(\pi_{k+1}) \leq d_i + \frac{\sqrt{2 \delta} \gamma \epsilon_{C_i}^{\pi_{k+1}}}{(1-\gamma)^2}$

关系：基于推论2和推论3，保证约束违反的上界。
CPO更新

$\pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right]$ $\text{s.t.} \quad J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A_{C_i}^{\pi_k}(s,a) \right] \leq d_i$ $\tilde{D}_{KL}(\pi \|\pi_k) \leq \delta$

关系：整合推论1-2的代理函数和推论3的KL约束，形成CPO的核心优化。

总结：公式从回报差异（引理2）到策略差异（定理1、推论3），再到奖励和约束的代理优化（推论1-2、命题1-2），最终形成CPO更新。

论文第六部分

第6部分将第5部分的理论转化为高效算法，解决高维策略的优化问题。主要作用包括：

高效计算：通过线性化和对偶问题简化CPO更新。
错误处理：提供恢复策略应对不可行情况。
鲁棒性增强：通过成本整形提高约束满足的稳定性。
理论到实践：将第5部分的界限应用于实际算法。

直观理解：像将“设计蓝图”变为“实际设备”，确保CPO在复杂任务中可行。

CPO近似优化（公式11）

$\theta_{k+1} = \arg \max_{\theta} g^T (\theta - \theta_k)$ $\text{s.t.} \quad c_i + b_i^T (\theta - \theta_k) \leq 0$ $\frac{1}{2} (\theta - \theta_k)^T H (\theta - \theta_k) \leq \delta$

关系：线性化公式10的目标和约束，二次近似KL散度，降低计算复杂度。
对偶问题（公式12-13）

$\max_{\lambda \geq 0, \nu \geq 0} \frac{-1}{2 \lambda} \left( g^T H^{-1} g - 2 r^T \nu + \nu^T S \nu \right) + \nu^T c - \frac{\lambda \delta}{2}$ $\theta^* = \theta_k + \frac{1}{\lambda^*} H^{-1} (g - B \nu^*)$

关系：公式12-13通过对偶形式求解公式11，将高维优化简化为低维问题。
单约束解析解（定理2）

$\theta^* = \theta_k - \frac{1}{\lambda^*} H^{-1} (g + \nu^* b)$

关系：特化公式13，针对单约束提供解析解，简化计算。
恢复策略（公式14）

$\theta^* = \theta_k - \sqrt{\frac{2 \delta}{b^T H^{-1} b}} H^{-1} b$

关系：当公式11不可行时，沿约束梯度恢复，保持KL散度约束。
成本整形（公式15）

$C_i^+(s,a,s') = C_i(s,a,s') + \Delta_i(s,a,s')$

关系：修改约束成本，增强公式11约束的鲁棒性，支持推论2的上界。