当前位置: 首页 > ops >正文

【强化学习】——04Model-Based RL

【强化学习】——04Model-Based RL

一、基于模型的强化学习

\quad\quad 强化学习算法一般有两个评价指标:

\quad\quad \quad\quad 一是,算法收敛后的策略在初始状态下的期望回报

\quad\quad \quad\quad 二是,算法达到收敛结果需要的样本数量

\quad\quad 基于模型的算法得益于这个环境模型,Agent对真实环境中的样本量的需求往往会减少

\quad\quad 通常具备较低的样本复杂度,但由于环境模型不可能完全准确,因此其期望回报通常较低

  1. 简介

在这里插入图片描述
\quad\quad 之前的Model-Free RL中,Agent只可以与环境进行交互

\quad\quad 如果环境模型已知,那么Agent可以与模型进行交互,基于模型来规划或决策

\quad\quad 这个模型的作用在于提供环境状态转移概率和预测生成的奖励,以产生或优化策略

  1. 环境模型 M ( P , R ) M(P,R) M(P,R)的组成

\quad\quad 状态转移函数 P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a)

\quad\quad 奖励函数 R ( s , a ) R(s,a) R(s,a)

  1. 核心思路

\quad\quad 模型学习:学习或构建环境的动态模型和奖励函数

\quad\quad \quad\quad 基于数据驱动的方法:监督学习,通过收集到的数据对模型进行训练

\quad\quad \quad\quad 基于物理规律的方法:基于机器人的动力学方程建立模型

\quad\quad 规划:基于模型进行推理,找到最优策略

\quad\quad \quad\quad MPC

\quad\quad \quad\quad DP

\quad\quad

http://www.xdnf.cn/news/12670.html

相关文章:

  • 垃圾回收相关八股
  • IDEA中的debug使用技巧
  • 伽罗华域GF(galois field)的乘法计算 - 查表法
  • Three.js实现梦幻星光漩涡特效 - 从原理到实现
  • Python 基础核心语法:输入输出、变量、注释与字符串操作
  • FirmAE安装-重新写
  • JDK17安装与配置
  • 心理咨询技能竞赛流程方案
  • Python Day45
  • 业余无线电FT8信道调制之LDPC编码
  • EMD算法
  • 复变函数极限介绍与MATLAB演示
  • 【仿生机器人】仿生机器人智能架构:从感知到个性的完整设计
  • 从零开始的python学习(七)P102+P103+P104+P105+P106+P107
  • Python 中的上下文管理器:使用 with 关键字高效管理资源
  • 【Redis系列 04】Redis高可用架构实战:主从复制与哨兵模式从零到生产
  • 第10篇《数据库中间件集成监控与全链路观测系统设计》
  • 2007-2023年数字经济上市公司专利申请获得数据
  • [学习] GNSS信号跟踪环路原理、设计与仿真(仿真代码)
  • 关于汉语普通话元音音位最好归纳为几个的问题
  • 【Linux庖丁解牛】—系统文件I/O !
  • 【LRU】 (最近最少使用)
  • 《开篇:课程目录》
  • sendDefaultImpl call timeout(rocketmq)
  • 免费批量文件重命名工具
  • Burp Suite 基础
  • Redis:List类型
  • 外贸网站服务器选择Siteground还是Hostinger,哪个更好?
  • leetcode刷题日记——1.组合总和
  • 常用函数库之 - std::function