当前位置: 首页 > ds >正文

强化学习入门:马尔科夫奖励过程二

文章目录

  • 前言
  • 1、动作
  • 2、策略
  • 总结


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:马尔科夫奖励过程

1、动作

  在上篇博客中,介绍了强化学习中的价值和回报概念。其中,回报就是当前t时刻,在将来所获得所有奖励和;而状态的价值则是回报的期望。
 但我们希望智能体能够自主的选择动作,从而决定怎样得到最大的奖励和回报。因此,需要在马尔科夫奖励过程中,新引入一个N*N的动作矩阵,其中第i行第j列表示智能体选择从状态i到状态j所采取的动作。
 
 如上图所示:此时MDP可以用一个三维矩阵表示:其中每个元素表示在给定动作k情况下,i->j的转移概率。

2、策略

 现在你的马尔科夫奖励已经包含了:转移概率、奖励、动作。但要想得到一个聪明的智能体,需要找到一个模型,让其能够聪明的选择什么样的动作,进而得到最大回报。比如:训狗,最终希望狗子能够听话不护食。
 其实抽象出来就是一个优化问题,交给智能体一种什么样策略,才能够训练好这个智能体。因为策略好多,如何才能教给智能体选择合适策略才是至关重要的。
 策略定义就是每个可能状态下的动作概率分布
π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a|S_t=s) π(as)=P(At=aSt=s)
 解释下上述公式含义:左边表示状态s条件下,采取动作a的概率分布。注意这里是概率分布,因此公式右边用的大写的P。之所以是概率分布,而不是具体动作,是希望给智能体行为引入随机性。

总结

 总结下强化学习用到的术语:首先有状态空间S、状态概率转移矩阵、奖励、回报是奖励的期望,动作矩阵,策略则是动作的概率分布。最终希望得到一个聪明的智能体,让其能够学会选择好的策略,进而得到最大的回报。

http://www.xdnf.cn/news/7038.html

相关文章:

  • 什么是API接口?API接口的核心价值
  • 网关GateWay——连接不同网络的关键设备
  • STM32IIC实战-OLED模板
  • TC3xx学习笔记-UCB BMHD使用详解(二)
  • 使用NVM管理node版本
  • GO语言学习(二)
  • CSS 浮动与定位以及定位中z-index的堆叠问题
  • 设计练习 - Movie Review Aggregator System
  • 探秘Transformer系列之(33)--- DeepSeek MTP
  • 【爬虫】DrissionPage-6
  • MapReduce 原理深度剖析:从任务执行到参数配置
  • AI编码代理的崛起 - AlphaEvolve与Codex的对比分析引言
  • 61. 旋转链表
  • 理解 plank 自动生成的 copyWithBlock: 方法
  • C++(初阶)(十八)——AVL树
  • 深入解析:如何基于开源OpENer开发EtherNet/IP从站服务
  • 深入浅出IIC协议 - 从总线原理到FPGA实战开发 -- 第一篇:I2C总线协议深度解剖
  • 广和通L610模块通过AT指令访问服务器方案:嵌赛使用
  • 蓝桥杯-不完整的算式
  • select语句的书写顺序
  • DAY 23 训练
  • Vue框架
  • windows 10 做服务器 其他电脑无法访问,怎么回事?
  • 深度学习模型入门:从基础到前沿
  • leetcode 239. 滑动窗口最大值
  • MySQL初阶:sql事务和索引
  • 电子电路:什么是高频电路以及都有哪些应用?
  • 手机打电话时由对方DTMF响应切换多级IVR语音应答(二)
  • UDP的单播组播与广播
  • 使用 Python 打造一个强大的文件系统结构创建器