当前位置：首页 > ops >正文

【强化学习】——04Model-Based RL

ops 2025/6/25 11:33:52

【强化学习】——04Model-Based RL

一、基于模型的强化学习

$\quad\quad$ 强化学习算法一般有两个评价指标：

$\quad\quad$ $\quad\quad$ 一是，算法收敛后的策略在初始状态下的期望回报

$\quad\quad$ $\quad\quad$ 二是，算法达到收敛结果需要的样本数量

$\quad\quad$ 基于模型的算法得益于这个环境模型，Agent对真实环境中的样本量的需求往往会减少

$\quad\quad$ 通常具备较低的样本复杂度，但由于环境模型不可能完全准确，因此其期望回报通常较低

简介：

在这里插入图片描述
$\quad\quad$ 之前的Model-Free RL中，Agent只可以与环境进行交互

$\quad\quad$ 如果环境模型已知，那么Agent可以与模型进行交互，基于模型来规划或决策

$\quad\quad$ 这个模型的作用在于提供环境状态转移概率和预测生成的奖励，以产生或优化策略

环境模型 $M (P, R)$ 的组成：

$\quad\quad$ 状态转移函数 $P (s^{'} ∣ s, a)$

$\quad\quad$ 奖励函数 $R (s, a)$

核心思路：

$\quad\quad$ 模型学习：学习或构建环境的动态模型和奖励函数

$\quad\quad$ $\quad\quad$ 基于数据驱动的方法：监督学习，通过收集到的数据对模型进行训练

$\quad\quad$ $\quad\quad$ 基于物理规律的方法：基于机器人的动力学方程建立模型

$\quad\quad$ 规划：基于模型进行推理，找到最优策略

$\quad\quad$ $\quad\quad$ MPC

$\quad\quad$ $\quad\quad$ DP

$\quad\quad$

查看全文

http://www.xdnf.cn/news/12670.html

垃圾回收相关八股

IDEA中的debug使用技巧

伽罗华域GF(galois field)的乘法计算 - 查表法

Three.js实现梦幻星光漩涡特效 - 从原理到实现

Python 基础核心语法：输入输出、变量、注释与字符串操作

【仿生机器人】仿生机器人智能架构：从感知到个性的完整设计

从零开始的python学习（七）P102+P103+P104+P105+P106+P107

Python 中的上下文管理器：使用 with 关键字高效管理资源

【Redis系列 04】Redis高可用架构实战：主从复制与哨兵模式从零到生产

第10篇《数据库中间件集成监控与全链路观测系统设计》

2007-2023年数字经济上市公司专利申请获得数据

[学习] GNSS信号跟踪环路原理、设计与仿真（仿真代码）

关于汉语普通话元音音位最好归纳为几个的问题

【Linux庖丁解牛】—系统文件I/O ！

【LRU】 (最近最少使用)

《开篇：课程目录》

sendDefaultImpl call timeout（rocketmq）

免费批量文件重命名工具

Burp Suite 基础

Redis：List类型

外贸网站服务器选择Siteground还是Hostinger，哪个更好？

leetcode刷题日记——1.组合总和

常用函数库之 - std::function

【强化学习】——04Model-Based RL

一、基于模型的强化学习

相关文章：