当前位置: 首页 > news >正文

强化学习入门:马尔科夫过程

文章目录

  • 前言
  • 1、马尔科夫过程 定义
  • 2、一些性质
  • 3、示例
  • 总结


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》

1、马尔科夫过程 定义

  马尔可夫过程(Markov Process,MP),包含了:一组状态(S)​,系统可以处于任一状态。一个转移矩阵(T)​,通过转移概率定义了系统的动态。马尔科夫要求现在状态只和他的前一个状态有关。 P ( s i ∣ s i − 1 , s i − 2... ) = P ( s i ∣ s i − 1 ) P(s_i|s_i-1, s_i-2...) = P(s_i|s_i-1) P(sisi1,si2...)=P(sisi1)

2、一些性质

 1)状态空间S是有限的;
 2)转移概率矩阵为 N*N,第i行第j列表示从状态i转移到状态j的概率;
 3) 马尔可夫性质暗示了稳定性(即所有状态的底层转移概率分布 不会 随着时间变化),否则马尔科夫将不在适用。

3、示例

 举个书中晴天雨天的例子,常常用概率转移图表示:假设状态概率转移矩阵T为:
在这里插入图片描述
 可视化为,其中每个节点表示状态,箭头表示状态转移概率。
在这里插入图片描述

总结

 本篇只是简单介绍马尔科夫的定义,希望读者对其有个感性认识。

http://www.xdnf.cn/news/388837.html

相关文章:

  • Linux系统中的Web服务器部署及优化
  • 5java集合框架
  • # Ollama 实现大模型调用
  • 无侵入式弹窗体验_探索 Chrome 的 Close Watcher API
  • Android Canvas API 详细说明与示例
  • python【扩展库】websockets
  • idea中的vcs不见了,如何解决
  • 探秘 DeerFlow:字节跳动开源的科研创作魔法盒!
  • 温湿度传感器SHT4X
  • 【C++】AVL树实现
  • 害怕和别人发生冲突怎么办? --deepseek
  • [特殊字符] 免税商品优选购物商城系统 | Java + SpringBoot + Vue | 前后端分离实战项目分享
  • 线程的一些事(2)
  • 拍摄学习笔记【前期】(一)曝光
  • SQL 数据库监控:SQL语句监控工具与实践案例
  • 【Redis】Redis的主从复制
  • Linux常见指令解析(三)
  • jenkins built-in节点如何删除
  • TeledyneLeCroy在OFC2025 EA展台上展示了其400G/800G的全包围的测试解决方案,满足了UEC联盟和UALINK联盟的技术需求
  • 【25软考网工】第六章(3)数字签名和数字证书
  • opencv关键点检测
  • C语音学习---函数指针
  • Redis爆肝总结
  • 【嵌入式DIY实例-Arduino篇】-DIY遥控手柄
  • IC ATE集成电路测试学习——电流测试的原理和方法
  • 数据库与SQL核心技术解析:从基础到JDBC编程实战
  • 设计模式系列(1):总览与引导
  • NX989NY104美光科技芯片NY109NY113
  • LVGL(lv_btnmatrix矩阵按钮)
  • Babel 基础使用指南:从安装到编译的完整流程