当前位置：首页 > backend >正文

详解受约束的强化学习(一、入门学习)

backend 2025/7/5 0:39:08

受约束的强化学习

0.引言
- Constrained RL受约束的强化学习（或者叫做Safe RL）
- 方法
- 背景了解
1. CPO 的背景和目标
2. 目标函数和约束的定义
- 2.1 目标函数 $J(\pi)$
- 2.2 约束函数 $J_{C_i}(\pi)$
3. CPO 的核心方法：TRPO 的类比
- 3.1 TRPO 的优化问题
- 3.2 CPO 的扩展
4. CPO 的近似求解
- 4.1 目标函数的线性近似
- 4.2 约束的线性近似
- 4.3 KL 散度的二次近似
5. CPO 的优化问题
6. 总结

0.引言

Constrained RL受约束的强化学习（或者叫做Safe RL）

目标：最大化折扣累计奖励（即最大化期望奖励）
Constrained RL核心思想：通过优化策略来最大化期望奖励，同时满足某些约束条件。
软约束：最大化折扣累计奖励，累计风险值小于某一个阈值
概率约束：整条轨迹每个点都不违反约束的概率大于某个阈值
硬约束：在轨迹的任何一点都不违反约束

方法

原问题方法：CPO，CRPO，PCPO，SPACE
原问题，对偶问题
拉格朗日方法
神经网络最后一层再套一层
李雅普诺夫函数保证等等。

背景了解

策略梯度，信赖域方法

Constrained Policy Optimization (CPO) 数学原理

1. CPO 的背景和目标

在强化学习中，智能体通过策略 $\pi(a|s)$ 与环境交互，目标是最大化累积期望奖励 $J(\pi)$ 。然而，在许多实际场景中，我们需要在优化奖励的同时满足一些安全或资源约束。例如，机器人可能需要在完成任务的同时限制能耗，或者在自动驾驶中需要遵守安全规则。
CPO 是一种基于约束优化的策略优化方法，旨在解决以下优化问题：
$\pi^* = \arg \max_{\pi \in \Pi_C} J(\pi),$
其中：
$J(\pi)$ 是策略 $\pi$ 的期望奖励（目标函数）。
$\Pi_C$ 是满足约束条件的策略集合，定义为：
$\Pi_C = { \pi \in \Pi \mid \forall i, J_{C_i}(\pi) \leq d_i },$
$J_{C_i}(\pi)$ 是第 $i$ 个约束的期望成本。
$d_i$ 是第 $i$ 个约束的上界。
简单来说，CPO 的目标是找到一个策略 $\pi^*$ ，使得奖励最大化，同时每个约束 $J_{C_i}(\pi) \leq d_i$ 都得到满足。

2. 目标函数和约束的定义

2.1 目标函数 $J(\pi)$

目标函数 $J(\pi)$ 表示策略 $\pi$ 在环境中交互时获得的期望累积奖励。在折扣奖励设置中，它通常定义为：
$J(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^\infty \gamma^t R(s_t, a_t) \right],$
其中：
$\tau = (s_0, a_0, s_1, a_1, \dots)$ 是策略 $\pi$ 产生的轨迹。
$R(s_t, a_t)$ 是时刻 $t$ 的即时奖励。
$\gamma \in (0, 1)$ 是折扣因子。

2.2 约束函数 $J_{C_i}(\pi)$

约束函数 $J_{C_i}(\pi)$ 表示第 $i$ 个约束的期望累积成本，定义为：
$J_{C_i}(\pi) = \mathbb{E}{\tau \sim \pi} \left[ \sum{t=0}^\infty \gamma^t C_i(s_t, a_t) \right],$
其中：
$C_i(s_t, a_t)$ 是时刻 $t$ 的第 $i$ 个成本函数。
约束要求 $J_{C_i}(\pi) \leq d_i$ 。

3. CPO 的核心方法：TRPO 的类比

CPO 借鉴了 Trust Region Policy Optimization (TRPO) 的思想。TRPO 是一种无约束策略优化方法，通过限制策略更新的步长来保证优化过程的稳定性。CPO 将这种思想扩展到有约束的场景。

3.1 TRPO 的优化问题

TRPO 的目标是：
$\pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} J(\pi),$
subject to：
$D(\pi, \pi_k) \leq \delta,$
其中：
$D(\pi, \pi_k)$ 是策略 $\pi$ 和当前策略 $\pi_k$ 之间的散度，通常使用 KL 散度：
$D(\pi, \pi_k) = \mathbb{E}{s \sim \rho{\pi_k}} \left[ \text{KL}(\pi(\cdot|s) | \pi_k(\cdot|s)) \right],$
$\delta$ 是信任区域的边界。

TRPO 通过线性化目标函数和约束来近似求解这个问题。

3.2 CPO 的扩展

CPO 将 TRPO 的信任区域方法扩展到有约束的情景，优化问题变为：
$\pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} J(\pi),$
subject to：
$J_{C_i}(\pi) \leq d_i, \quad i = 1, \dots, m,$
$D(\pi, \pi_k) \leq \delta.$
这里，CPO 不仅限制了策略更新的步长（通过 $D(\pi, \pi_k) \leq \delta$ ），还增加了额外的约束 $J_{C_i}(\pi) \leq d_i$ 。

4. CPO 的近似求解

直接求解上述约束优化问题是困难的，因此 CPO 使用了线性化和二次近似来简化问题。

4.1 目标函数的线性近似

对于目标函数 $J(\pi)$ ，CPO 使用了 TRPO 中的线性近似：
$J(\pi) \approx J(\pi_k) + \nabla_{\theta} J(\pi_k)^\top (\theta - \theta_k),$
其中：
$\theta$ 是策略 $\pi$ 的参数。
$\theta_k$ 是当前策略 $\pi_k$ 的参数。
$\nabla_{\theta} J(\pi_k)$ 是目标函数在 $\theta_k$ 处的梯度。

在强化学习中，梯度 $\nabla_{\theta} J(\pi_k)$ 通常通过策略梯度方法计算：
$\nabla_{\theta} J(\pi_k) = \mathbb{E}{\tau \sim \pi_k} \left[ \sum{t=0}^\infty \gamma^t \nabla_{\theta} \log \pi_k(a_t|s_t) A^{\pi_k}(s_t, a_t) \right],$
其中 $A^{\pi_k}(s_t, a_t)$ 是优势函数。

4.2 约束的线性近似

对于约束 $J_{C_i}(\pi)$ ，CPO 同样进行线性近似：
$J_{C_i}(\pi) \approx J_{C_i}(\pi_k) + \nabla_{\theta} J_{C_i}(\pi_k)^\top (\theta - \theta_k),$
约束条件 $J_{C_i}(\pi) \leq d_i$ 变为：
$J_{C_i}(\pi_k) + \nabla_{\theta} J_{C_i}(\pi_k)^\top (\theta - \theta_k) \leq d_i.$

4.3 KL 散度的二次近似

KL 散度约束 $D(\pi, \pi_k) \leq \delta$ 被近似为二次形式：
$D(\pi, \pi_k) \approx \frac{1}{2} (\theta - \theta_k)^\top F (\theta - \theta_k),$
其中 $F$ 是 Fisher 信息矩阵，定义为：
$\mathbb{E}{s \sim \rho{\pi_k}} \left[ \mathbb{E}{a \sim \pi_k(\cdot|s)} \left[ \nabla{\theta} \log \pi_k(a|s) \nabla_{\theta} \log \pi_k(a|s)^\top \right] \right].$

5. CPO 的优化问题

综合上述近似，CPO 的优化问题变为一个近似的凸优化问题：
$\max_{\Delta \theta} \ \nabla_{\theta} J(\pi_k)^\top \Delta \theta,$
subject to：
$J_{C_i}(\pi_k) + \nabla_{\theta} J_{C_i}(\pi_k)^\top \Delta \theta \leq d_i, \quad i = 1, \dots, m,$
$\frac{1}{2} \Delta \theta^\top F \Delta \theta \leq \delta,$
其中 $\Delta \theta = \theta - \theta_k$ 。
这个优化问题可以通过拉格朗日对偶方法求解。CPO 提供了两种求解方式：