当前位置: 首页 > news >正文

【强化学习系列】贝尔曼方程

首先回顾状态价值函数和动作价值函数的定义:
状态价值函数 v π ( s ) v_\pi(s) vπ(s)是从状态 s s s出发,直至一幕结束后获得的回报的期望值
动作价值函数 q π ( s , a ) q_\pi(s,a) qπ(s,a)是从状态 s s s出发,采取动作 a a a后,直至一幕结束后获得的回报的期望值
以下面这张回溯图为例:
在这里插入图片描述
从状态 s s s出发有三个动作可以选,选择的概率为 π ( a i ∣ s ) \pi(a_i|s) π(ais),一旦选择了动作 a i a_i ai,后续获得的回报为 q π ( s , a i ) q_\pi(s,a_i) qπ(s,ai),而状态价值函数是从状态 s s s出发回报的期望值,因此需要按动作被选择的概率对动作价值进行加权求和,即:
v π ( s ) = π ( a 1 ∣ s ) q π ( s , a 1 ) + π ( a 2 ∣ s ) q π ( s , a 2 ) + π ( a 3 ∣ s ) q π ( s , a 3 ) v_\pi(s)=\pi(a_1|s)q_\pi(s,a_1)+\pi(a_2|s)q_\pi(s,a_2)+\pi(a_3|s)q_\pi(s,a_3) vπ(s)=π(a1s)qπ(s,a1)+π(a2s)qπ(s,a2)+π(a3s)qπ(s,a3)
更一般地,状态价值与动作价值的关系为:
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) q π ( s , a ) v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a|s)q_\pi(s,a) vπ(s)=aAπ(as)qπ(s,a)
在采取动作 a a a后,智能体会以一定概率获得一个奖励 r r r,并转移到下一个状态 s ′ s' s,这个概率记作 p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a) q π ( s , a ) q_\pi(s,a) qπ(s,a)和下一个状态 s ′ s' s的状态价值之间存在以下关系:
q π ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] q_\pi(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_\pi(s')] qπ(s,a)=sSrRp(s,rs,a)[r+γvπ(s)]

这个关系通过下面的回溯图很容易理解,因为动作价值是期望值,而奖励 R t + 1 R_{t+1} Rt+1和下一个状态 S t + 1 S_{t+1} St+1都是随机变量,求期望值需要对随机变量不同取值按概率加权求和。
在这里插入图片描述
联立上面两个式子就得到状态价值函数的贝尔曼方程:
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a|s)\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_\pi(s')] vπ(s)=aAπ(as)sSrRp(s,rs,a)[r+γvπ(s)]
同样可以得到动作价值函数的贝尔曼方程:
q π ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) q π ( s ′ , a ′ ) ] q_\pi(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma \sum_{a'\in\mathcal{A}}\pi(a'|s')q_\pi(s',a')] qπ(s,a)=sSrRp(s,rs,a)[r+γaAπ(as)qπ(s,a)]

http://www.xdnf.cn/news/202069.html

相关文章:

  • mysql模糊多次OR查询某一个字段,针对这个字段进行查询分组
  • Marin说PCB之----板材的替换注意事项
  • vite创建vue3项目并进行配置
  • DIFY教程第三弹:构建一个智能生成图片的Agent
  • 【分布式系统中的“瑞士军刀”_ Zookeeper】三、Zookeeper 在实际项目中的应用场景与案例分析
  • openGauss DB4AI与scikit-learn模块对比探究
  • 基于强化学习的用于非刚性图像配准的引导式超声采集|文献速递-深度学习医疗AI最新文献
  • HTML标记语言_@拉钩教育【笔记】
  • 座舱系统香氛模块概念
  • 【Linux】第十一章 管理网络
  • COMEM光纤温度传感器Optocon:可靠稳定的温度监测方案
  • 2025三掌柜赠书活动第十五期:高并发系统:设计原理与实践
  • 跨语言哈希一致性:C# 与 Java 的 MD5 之战?
  • PHP经验笔记
  • 大模型相关问题解答
  • 记一次奇妙的Oracle注入绕WAF之旅
  • vue-router: vue3路由管理器
  • 新时代下的存储过程开发实践与优化
  • AI大模型入门指南——概念篇
  • 语音合成之九注意力机制在TTS中的应用:让模型“听懂”文本
  • 从零开始学AI教程 初学者入门指南
  • 推荐私有化部署的企业内部通讯软件BeeWorks
  • 如何解决 Linux 文件系统挂载失败的问题
  • 在C# WebApi 中使用 Nacos01:基础安装教程和启动运行
  • 金融业数字化转型——深入解读77页2024年中国金融体系指标大全【附全文阅读】
  • 机器学习框架全景解析:优势、局限与行业实践
  • Docker镜像仓库技术深度解析
  • 记录一次OOM的排查过程
  • c++继承
  • Netty在线客服系统落地方案