当前位置: 首页 > news >正文

强化学习入门:马尔科夫奖励过程

文章目录

  • 前言
  • 1、组成部分
  • 2、应用例子
  • 3、马尔科夫奖励过程
  • 总结


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》

1、组成部分

  强化学习其实主要包含下面五个部分:我将通过一个训练狗护食的例子来说明各部分含义。
在这里插入图片描述
 智能体是狗,环境就是周围一切,狗当然能够观察环境,而且还能采取吃与不吃的动作。而我作为训狗师会给予其奖励揍他或者给肉。
 1)当我去拿狗饭盆时,狗观察到我的手,采取了龇牙咧嘴的动作,结果奖励就是一巴掌;
 2)当我去拿狗饭盆时,狗观察到我的手,采取了眼睁睁看着我拿走饭盆的动作,结果奖励它继续吃;

2、应用例子

 其实上述范式在生活中到处都有应用,如下图所示:强化学习基本是很多学科的交集。
在这里插入图片描述
 实际应用领域:国际象棋ALphaGo,DeepSeek-R1,学习成绩,大脑多巴胺系统,等等,不一而足。

3、马尔科夫奖励过程

 在上一篇介绍了马尔科夫过程,核心包括有限状态空间和概率转移矩阵。而马尔科夫奖励过程则是在状态转移之间,引入了一个奖励矩阵,形状也是N*N:比如第i行第j列就表示从状态i到状态j所得到的奖励。
 在引入奖励矩阵后,引入一个核心概念:回报!其数学定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt=Rt+1+γRt+2+...=i=1Rt+k+1

 表达的意思是:在t时刻状态下,在接下来所有时刻所取得的回报和。其中 γ \gamma γ就是折扣因子,取值范围[0~1],越接近1,则考虑越多的未来。
 由于采取的可能性很多,因此, G t G_t Gt的变化范围很大,很难优化。但回报的期望却是能拿到的,即状态的价值
V ( s ) = E [ G ∣ S t = s ] V(s) = E[G|S_t=s] V(s)=E[GSt=s]
 表达含义是:在t时刻,对于每一个状态s条件下,所得到回报G的平均值。

总结

 本篇只是介绍下强化学习的回报和状态价值定义,让读者能从感性角度对其有个理解,下篇介绍在马尔科夫奖励过程中引入动作和策略。

http://www.xdnf.cn/news/473653.html

相关文章:

  • 小白学编程之——数据库如何性能优化
  • c语言 写一个五子棋
  • 服务器选购指南:从零开始了解服务器
  • 【GitHub加速地址】
  • 比亚迪跨界降维打击!将正式宣布跨界,进入两三轮电动车电池市场
  • vue插槽的实例详解
  • 缺乏需求优先级划分时,如何合理分配资源?
  • python-修改图片背景色
  • java分布式服务的高可用处理
  • 优化算法加速深度学习模型训练
  • 《棒球百科》市运会是什么级别的比赛·棒球1号位
  • 一种改进DEIM(CVPR2025)的简单示例
  • 前端学习:align-items 和 justify-content 概念和区别
  • 图片通过滑块小图切换大图放大镜效果显示
  • SDC命令详解:使用get_pins命令进行查询
  • Vue.js---避免无限递归循环 调度执行
  • Weblogic SSRF漏洞复现(CVE-2014-4210)【vulhub靶场】
  • 黑马Java基础笔记-11
  • 深度学习之用CelebA_Spoof数据集搭建一个活体检测-训练好的模型用MNN来推理
  • Turbo C++
  • 数据驱动下的具身智能进化范式
  • 专项智能练习(定义判断)
  • 学习笔记:黑马程序员JavaWeb开发教程(2025.4.4)
  • threejs 大场景优化方案(代码层)
  • pycharm中qthread中的run函数debug不上的问题
  • 深度学习中的提示词优化:梯度下降全解析
  • 钉钉数据与金蝶云星空的无缝集成解决方案
  • mavgenerate 在 win11 下环境搭建注意问题
  • Kuberbetes-CA证书过期解决方案
  • linux系统中如何校准时间