当前位置: 首页 > backend >正文

详解受约束的强化学习(三、公式关系串联)

目录

  • 串联全文公式关联
    • 论文第五部分
    • 论文第六部分
      • 总体联系

在这里插入图片描述

串联全文公式关联

由于这里面公式比较多,我们再加深一下公式的关系。

论文第五部分

第5部分是CPO算法的理论核心,解决约束马尔可夫决策过程(CMDP)中的优化问题。主要作用包括:

  1. 定义CMDP优化:在最大化奖励 J ( π ) J(\pi) J(π)的同时,确保约束 J C i ( π ) ≤ d i J_{C_i}(\pi) \leq d_i JCi(π)di(如安全性)。

  2. 建立性能界限:通过定理和推论提供新旧策略在奖励和成本上的差异界限,支持代理优化。

  3. 引入信任区域:限制策略差异(如KL散度),确保更新稳定。

  4. 指导实际实现:为第6部分的算法实现提供理论基础。

  5. CMDP优化问题(公式3)

    π k + 1 = arg ⁡ max ⁡ π J ( π ) \pi_{k+1} = \arg \max_{\pi} J(\pi) πk+1=argπmaxJ(π) s.t. J C i ( π ) ≤ d i , i = 1 , … , m \text{s.t.} \quad J_{C_i}(\pi) \leq d_i, \quad i=1,\ldots,m s.t.JCi(π)di,i=1,,m D ( π , π k ) ≤ δ D(\pi, \pi_k) \leq \delta D(π,πk)δ

    作用:定义CPO的目标,但直接计算 J ( π ) J(\pi) J(π) J C i ( π ) J_{C_i}(\pi) JCi(π)需要离线策略评估,难以实现。

  6. 引理2:初步界限

J ( π ′ ) − J ( π ) ≥ 1 1 − γ ( L π , f ( π ′ ) − 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') - 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π)J(π)1γ1(Lπ,f(π)2ϵfπDTV(dπdπ))

J ( π ′ ) − J ( π ) ≤ 1 1 − γ ( L π , f ( π ′ ) + 2 ϵ f π ′ D T V ( d π ′ ∥ d π ) ) J(\pi') - J(\pi) \leq \frac{1}{1-\gamma} \left( L_{\pi,f}(\pi') + 2 \epsilon_f^{\pi'} D_{TV}(d^{\pi'} \| d^\pi) \right) J(π)J(π)1γ1(Lπ,f(π)+2ϵfπDTV(dπdπ))

其中 L π , f ( π ′ ) = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ ( π ′ ( a ∣ s ) π ( a ∣ s ) − 1 ) δ f ( s , a , s ′ ) ] L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right] Lπ,f(π)=Esdπ,aπ,sP[(π(as)π(as)1)δf(s,a,s)] δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s)=R(s,a,s)+γf(s)f(s)

关系:将回报差异转化为代理函数 L π , f ( π ′ ) L_{\pi,f}(\pi') Lπ,f(π)和误差项(与策略之间的总变差距离相关), D T V ( d π ′ ∥ d π ) = 1 2 ∑ s ∣ d π ′ ( s ) − d π ( s ) ∣ D_{TV}(d^{\pi'} \| d^\pi) = \frac{1}{2} \sum_s |d^{\pi'}(s) - d^\pi(s)| DTV(dπdπ)=21sdπ(s)dπ(s)是状态分布的总变差距离, d π ( s ) d^\pi(s) dπ(s)是折扣未来状态分布, 所以 D T V ( d π ′ ∥ d π ) D_{TV}(d^{\pi'} \| d^\pi) DTV(dπdπ)是在捕捉状态分布差异。

  • L π , f ( π ′ ) = E s ∼ d π , a ∼ π ′ , s ′ ∼ P [ ( π ′ ( a ∣ s ) π ( a ∣ s ) − 1 ) δ f ( s , a , s ′ ) ] L_{\pi,f}(\pi') = \mathbb{E}_{s \sim d^\pi, a \sim \pi', s' \sim P} \left[ \left( \frac{\pi'(a|s)}{\pi(a|s)} - 1 \right) \delta_f(s,a,s') \right] Lπ,f(π)=Esdπ,aπ,sP[(π(as)π(as)1)δf(s,a,s)]
  • δ f ( s , a , s ′ ) = R ( s , a , s ′ ) + γ f ( s ′ ) − f ( s ) \delta_f(s,a,s') = R(s,a,s') + \gamma f(s') - f(s) δf(s,a,s)=R(s,a,s)+γf(s)f(s) δ f ( s , a , s ′ ) \delta_f(s,a,s') δf(s,a,s)是时序误差(TD error)
  • ϵ f π ′ = max ⁡ s ∣ E a ∼ π ′ , s ′ ∼ P [ δ f ( s , a , s ′ ) ] ∣ \epsilon_f^{\pi'} = \max_s \left| \mathbb{E}_{a \sim \pi', s' \sim P} \left[ \delta_f(s,a,s') \right] \right| ϵfπ=maxsEaπ,sP[δf(s,a,s)],是一个误差项
  1. 引理3:状态分布到策略差异

    ∥ d π ′ − d π ∥ 1 ≤ 2 γ 1 − γ E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] \| d^{\pi'} - d^\pi \|_1 \leq \frac{2 \gamma}{1-\gamma} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] dπdπ11γ2γEsdπ[DTV(ππs)]

  • D T V ( π ′ ∥ π ∣ s ) = 1 2 ∑ a ∣ π ′ ( a ∣ s ) − π ( a ∣ s ) ∣ D_{TV}(\pi' \|\pi | s) = \frac{1}{2} \sum_a |\pi'(a|s) - \pi(a|s)| DTV(ππs)=21aπ(as)π(as),是状态 s s s下的总变差距离

    关系:将状态分布差异转换为策略差异 D T V ( π ′ ∥ π ∣ s ) D_{TV}(\pi' \|\pi | s) DTV(ππs),使界限更实用。

  1. 定理1:综合界限

    D π , f + ( π ′ ) ≥ J ( π ′ ) − J ( π ) ≥ D π , f − ( π ′ ) D_{\pi,f}^{+}(\pi') \geq J(\pi') - J(\pi) \geq D_{\pi,f}^{-}(\pi') Dπ,f+(π)J(π)J(π)Dπ,f(π)

    其中 D π , f ± ( π ′ ) = L π , f ( π ′ ) 1 − γ ± 2 γ ϵ f π ′ ( 1 − γ ) 2 E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] D_{\pi,f}^{\pm}(\pi') = \frac{L_{\pi,f}(\pi')}{1-\gamma} \pm \frac{2\gamma \epsilon_f^{\pi'}}{(1-\gamma)^2} \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] Dπ,f±(π)=1γLπ,f(π)±(1γ)22γϵfπEsdπ[DTV(ππs)]

    关系:结合引理2和引理3,用策略差异替换状态分布差异,支持代理优化。

  2. 推论1:奖励优化

    J ( π ′ ) − J ( π ) ≥ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A π ( s , a ) − 2 γ ϵ π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J(\pi') - J(\pi) \geq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A^\pi(s,a) - \frac{2 \gamma \epsilon^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] J(π)J(π)1γ1Esdπ,aπ[Aπ(s,a)1γ2γϵπDTV(ππs)]

    关系:特化定理1, A π ( s , a ) A^\pi(s,a) Aπ(s,a)作为奖励的代理函数,误差项控制近似准确性。

  3. 推论2:约束成本

    J C i ( π ′ ) − J C i ( π ) ≤ 1 1 − γ E s ∼ d π , a ∼ π ′ [ A C i π ( s , a ) + 2 γ ϵ C i π ′ 1 − γ D T V ( π ′ ∥ π ∣ s ) ] J_{C_i}(\pi') - J_{C_i}(\pi) \leq \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^\pi, a \sim \pi'} \left[ A_{C_i}^\pi(s,a) + \frac{2 \gamma \epsilon_{C_i}^{\pi'}}{1-\gamma} D_{TV}(\pi' \|\pi | s) \right] JCi(π)JCi(π)1γ1Esdπ,aπ[ACiπ(s,a)+1γ2γϵCiπDTV(ππs)]

    关系:为约束成本提供上界,支持约束条件的近似。

  4. 推论3:KL散度

    E s ∼ d π [ D T V ( π ′ ∥ π ∣ s ) ] ≤ 1 2 E s ∼ d π [ D K L ( π ′ ∥ π ∣ s ) ] \mathbb{E}_{s \sim d^\pi} \left[ D_{TV}(\pi' \|\pi | s) \right] \leq \sqrt{\frac{1}{2} \mathbb{E}_{s \sim d^\pi} \left[ D_{KL}(\pi' \|\pi | s) \right]} Esdπ[DTV(ππs)]21Esdπ[DKL(ππs)]

    关系:将 D T V D_{TV} DTV转换为 D K L D_{KL} DKL,与信任区域约束兼容。

  5. 命题1:奖励保证

    J ( π k + 1 ) − J ( π k ) ≥ − 2 δ γ ϵ π k + 1 ( 1 − γ ) 2 J(\pi_{k+1}) - J(\pi_k) \geq \frac{-\sqrt{2 \delta} \gamma \epsilon^{\pi_{k+1}}}{(1-\gamma)^2} J(πk+1)J(πk)(1γ)22δ γϵπk+1

    关系:基于推论1和推论3,保证信任区域更新的奖励下界。

  6. 命题2:约束保证

    J C i ( π k + 1 ) ≤ d i + 2 δ γ ϵ C i π k + 1 ( 1 − γ ) 2 J_{C_i}(\pi_{k+1}) \leq d_i + \frac{\sqrt{2 \delta} \gamma \epsilon_{C_i}^{\pi_{k+1}}}{(1-\gamma)^2} JCi(πk+1)di+(1γ)22δ γϵCiπk+1

    关系:基于推论2和推论3,保证约束违反的上界。

  7. CPO更新

    π k + 1 = arg ⁡ max ⁡ π ∈ Π θ E s ∼ d π k , a ∼ π [ A π k ( s , a ) ] \pi_{k+1} = \arg \max_{\pi \in \Pi_\theta} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A^{\pi_k}(s,a) \right] πk+1=argπΠθmaxEsdπk,aπ[Aπk(s,a)] s.t. J C i ( π k ) + 1 1 − γ E s ∼ d π k , a ∼ π [ A C i π k ( s , a ) ] ≤ d i \text{s.t.} \quad J_{C_i}(\pi_k) + \frac{1}{1-\gamma} \mathbb{E}_{s \sim d^{\pi_k}, a \sim \pi} \left[ A_{C_i}^{\pi_k}(s,a) \right] \leq d_i s.t.JCi(πk)+1γ1Esdπk,aπ[ACiπk(s,a)]di D ~ K L ( π ∥ π k ) ≤ δ \tilde{D}_{KL}(\pi \|\pi_k) \leq \delta D~KL(ππk)δ

    关系:整合推论1-2的代理函数和推论3的KL约束,形成CPO的核心优化。

总结:公式从回报差异(引理2)到策略差异(定理1、推论3),再到奖励和约束的代理优化(推论1-2、命题1-2),最终形成CPO更新。

论文第六部分

第6部分将第5部分的理论转化为高效算法,解决高维策略的优化问题。主要作用包括:

  1. 高效计算:通过线性化和对偶问题简化CPO更新。
  2. 错误处理:提供恢复策略应对不可行情况。
  3. 鲁棒性增强:通过成本整形提高约束满足的稳定性。
  4. 理论到实践:将第5部分的界限应用于实际算法。

直观理解:像将“设计蓝图”变为“实际设备”,确保CPO在复杂任务中可行。

  1. CPO近似优化(公式11)

    θ k + 1 = arg ⁡ max ⁡ θ g T ( θ − θ k ) \theta_{k+1} = \arg \max_{\theta} g^T (\theta - \theta_k) θk+1=argθmaxgT(θθk) s.t. c i + b i T ( θ − θ k ) ≤ 0 \text{s.t.} \quad c_i + b_i^T (\theta - \theta_k) \leq 0 s.t.ci+biT(θθk)0 1 2 ( θ − θ k ) T H ( θ − θ k ) ≤ δ \frac{1}{2} (\theta - \theta_k)^T H (\theta - \theta_k) \leq \delta 21(θθk)TH(θθk)δ

    关系:线性化公式10的目标和约束,二次近似KL散度,降低计算复杂度。

  2. 对偶问题(公式12-13)

    max ⁡ λ ≥ 0 , ν ≥ 0 − 1 2 λ ( g T H − 1 g − 2 r T ν + ν T S ν ) + ν T c − λ δ 2 \max_{\lambda \geq 0, \nu \geq 0} \frac{-1}{2 \lambda} \left( g^T H^{-1} g - 2 r^T \nu + \nu^T S \nu \right) + \nu^T c - \frac{\lambda \delta}{2} λ0,ν0max2λ1(gTH1g2rTν+νTSν)+νTc2λδ θ ∗ = θ k + 1 λ ∗ H − 1 ( g − B ν ∗ ) \theta^* = \theta_k + \frac{1}{\lambda^*} H^{-1} (g - B \nu^*) θ=θk+λ1H1(gBν)

    关系:公式12-13通过对偶形式求解公式11,将高维优化简化为低维问题。

  3. 单约束解析解(定理2)

    θ ∗ = θ k − 1 λ ∗ H − 1 ( g + ν ∗ b ) \theta^* = \theta_k - \frac{1}{\lambda^*} H^{-1} (g + \nu^* b) θ=θkλ1H1(g+νb)

    关系:特化公式13,针对单约束提供解析解,简化计算。

  4. 恢复策略(公式14)

    θ ∗ = θ k − 2 δ b T H − 1 b H − 1 b \theta^* = \theta_k - \sqrt{\frac{2 \delta}{b^T H^{-1} b}} H^{-1} b θ=θkbTH1b2δ H1b

    关系:当公式11不可行时,沿约束梯度恢复,保持KL散度约束。

  5. 成本整形(公式15)

    C i + ( s , a , s ′ ) = C i ( s , a , s ′ ) + Δ i ( s , a , s ′ ) C_i^+(s,a,s') = C_i(s,a,s') + \Delta_i(s,a,s') Ci+(s,a,s)=Ci(s,a,s)+Δi(s,a,s)

    关系:修改约束成本,增强公式11约束的鲁棒性,支持推论2的上界。

总结:公式11近似公式10,公式12-13和定理2高效求解,公式14处理错误,公式15提高鲁棒性,共同实现CPO算法。

总体联系

第5部分的理论界限(引理2 → 定理1 → 推论1-3 → 命题1-2 → 公式10)定义了CPO的优化框架,第6部分的公式(公式11 → 公式12-13 → 定理2 → 公式14 → 公式15)将理论转化为高效算法,确保计算可行性和约束满足。


http://www.xdnf.cn/news/8152.html

相关文章:

  • 【Linux 服务器磁盘映像备份与恢复实战指南】虚拟机备份,物理机上云都可以用这套方案!
  • 2025年气候持续大风,消纳减少,如何保收益?东润能源整体解决方案持续保收益保增长
  • C++:面试题汇总
  • 系统与账户安全
  • 一个纯粹基于jQuery和Django的SSE站内信通知的例子
  • 飞牛fnNAS远程映射盘符
  • PARSCALE:大语言模型的第三种扩展范式
  • CAD如何导出PDF?PDF如何转CAD?详细教程来了
  • Phantom 根据图片和文字描述,自动生成一段视频,并且动作、场景等内容会按照文字描述来呈现
  • 对Web界面进行简单自动化测试Selenium
  • vscode git push 记录
  • 现代生活健康养生新策略
  • Aqua Mail Pro 安卓邮件管理助手可备份和恢复的邮件客户端 v1.55.1专业版
  • (第94天)OGG 微服务搭建 Oracle 19C CDB 架构同步
  • 网络安全-等级保护(等保) 3-1-1 GB/T 28448-2019 附录A (资料性附录)测评力度附录C(规范性附录)测评单元编号说明
  • spring boot 实现resp视频推流
  • 觉醒三境:在敦煌的风沙中寻找生命的纹路
  • 基于deepseek 以及豆包工具+nodejs 搭建A I自动化客服系统
  • 角度回归——八参数检测四边形Gliding Vertex
  • 树 Part 9
  • 【IC_Design】跨时钟域的寄存器更新后锁存
  • MyBatis-Plus的自带分页方法生成的SQL失败:The error occurred while setting parameters
  • (37)服务器增加ipv6配置方法
  • MySQL 查询用户权限的方法
  • redis-7.4.2 通过 systemd管理,rpmbuild spec文件参考
  • C++ JSON解析技术详解
  • QGIS DB Manager 导入 Shp 到 PostGIS 空间数据库
  • Mysql 刷题Day09
  • 常用快捷键大全
  • 在Pycharm中如何安装Flask