强化学习(GPS)

GPS——Guided Policy Search引导策略搜索

GPS目前被作为基础算法广泛应用于各种强化学习任务中,其出发点在于纯粹的策略梯度方法在更新参数时不会用到环境模型因而属于一种无模型强化学习算法。由于没有利用任何环境的内在属性,使得其训练只能完全依靠试错,效率较低。

开环方法:开放循环控制或非反馈控制,是一种控制策略,其中系统的输出或行为仅依赖于预设的指令或计划,而不考虑实际输出或环境状态的变化。在开环控制中,一旦确定了控制策略,就会一直执行下去,不会根据系统的实际表现进行调整。

闭环方法:反馈控制,涉及到系统通过传感器持续监测器输出或环境状态,并将这些信息反馈到控制系统中,以调整其输入或行为。闭环控制能够自动纠正偏差,因此对环境变化和不确定性有更好的适应性。

路径优化算法是一个开环方法,策略梯度是一个闭环方法,将两者相结合,利用路径优化算法的输出结果来指导策略梯度方法的训练过程,从而提高策略梯方法的效率,即GPS算法。

GPS-v1

基本思想:首先使用路径优化算法产生一些训练数据并加入训练集中用以指导后续策略梯度方法的训练。但是策略梯度方法是在线策略算法,只能使用当前策略采样得到的数据来估计梯度从而更新参数,为了能够使用其他策略采样的数据,这里必须要使用一种技术:重要性采样。

重要性采样(一种用于估计概率分布或函数期望值的方法):

基本思想:如果想要估计某个函数f\left ( x \right )在概率分布P\left ( x \right )下的期望值E_{P}\left [ f\left ( x \right ) \right ],可以利用一个与P\left ( x \right )相关但更易于采样的分布Q\left ( x \right ),来近似这个期望值。

Q\left ( x \right )中抽取样本x_{i},并为每个样本x_{i}加上一个权重w\left ( x_{i} \right ),这个权重是P\left ( x_{i} \right )Q\left ( x _{i}\right )的比值。

基于重要性采样的策略梯度方法

在其他策略采样处的样本分布的基础上进行新策略的搜索,一旦新策略的样本分布与采样样本分布相距较远时,无法保证估计梯度的准确性。前面有工作是通过计算重要性权重的方差来判断新策略的准确性的,但是对于很长的路径,重要性权重在大部分地方都为0,方差也很小,但是并不能说明什么问题,V1版本的GPS算法通过在优化目标上额外加入重要性权重的对数值的方法,来“软最大化”重要性权重值,毕竟重要性权重越大,代表新策略分布与采样分布更为接近。

伪代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1113139.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

2024年单服务器部署Mongodb三节点副本集自动化部署脚本

该脚本是为了方便自己学习和工作中部署服务器从而节省时间进行编写,目前能正常部署,创建集群,管理员用户,以及连接都没问题,但是没有开启验证,后续找时间补充。 完整的教程请参考一下我写的技术文章。 20…

web安全学习笔记【13】——信息打点(3)

信息打点-JS架构&框架识别&泄漏提取&API接口枚举&FUZZ爬虫&插件项目[1] #知识点: 1、业务资产-应用类型分类 2、Web单域名获取-接口查询 3、Web子域名获取-解析枚举 4、Web架构资产-平台指纹识别 ------------------------------------ 1、开源…

5、电源管理入门之 arm-scmi和mailbox核间通信

目录 1. 整体架构介绍 2 Linux中reset模块 2.1 Reset consumer 2.2 Reset provider 3. Linux SCMI reset通信 3.1 SCMI reset协议初始化 3.2 SCMI reset消息收发 4. SCP中reset 4.1 固件新增module 4.2 scmi_reset_domain初始化 4.3 scmi_reset_domain消息处理 4.3…

基于Java在线宠物店商城系统设计与实现(源码+部署文档)

博主介绍: ✌至今服务客户已经1000、专注于Java技术领域、项目定制、技术答疑、开发工具、毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏 推荐订阅 👇🏻 不然下次找不到 Java项目精品实…

穿透用户需求,在热门场景中寻求种草新机遇

回首2023年,情绪热点频现。无论是“玄学”还是“豚门”,是特种兵旅游还是citywalk,是“脆皮”大学生还是“南方小土豆”……本质是压力下的乐观表达,孜孜不倦寻求简单而确定的快乐。 可见,想要释放的情绪不会被消解&am…

吴恩达机器学习全课程笔记第三篇

目录 前言 P42-P48 神经元和大脑 神经网络中的层 更复杂的神经网络 前向传播(做出预测) P49-P53 代码中的推理 构建一个神经网络 P54-P60 矩阵乘法 TensorFlow框架实现神经网络 前言 这是吴恩达机器学习笔记的第三篇,第二篇笔记…

基于springboot+vue的美发门店管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

中医笔记(阴阳,五行,十二经脉,天干地支,子午流注,倪海厦中医笔记)

目录 一.阴阳1.1 什么是阴阳?1.2 作用1.3 阴阳理论在中医上的运用 二.五行2.1 五行之间的关系2.2 五行对应的力量2.3 原理: 三.天干地支四.子午流注十二经脉与子午流注之间的关系 五.十二经脉足太阳膀胱经 六.中医笔记小肠是火气化膀胱的水(如…

Docker启动失败 unknown flag: --graph

Feb 21 10:52:09 master-yzjgxh2592890703-1706514552638 dockerd[13858]: Status: unknown flag: --graph Feb 21 10:52:09 master-yzjgxh2592890703-1706514552638 dockerd[13858]: See dockerd --help., Code: 125 这里表明dockerd命令不认识--graph这个标志。这可能是因为…

SpringBoot---集成MybatisPlus

介绍 使用SpringBoot集成MybatisPlus框架。 第一步&#xff1a;添加MybatisPlus依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.3.2</version> </depende…

Java 学习和实践笔记(17):构造方法(构造器 constructor)

构造方法&#xff08;构造器 constructor) 它只是用于指明对象的初始化&#xff0c;而不是创造对象。 在每一个类创建完&#xff0c;编译器都会自动做一个无参的构造方法&#xff08;没有显示出来&#xff09;&#xff0c;因为做了这个&#xff0c;所以new才能自动创建对象。…

C# WPF 桌面应用程序使用 SQlite 数据库

我们在开发 WPF 桌面应用程序时&#xff0c;数据库存的使用是必不可少的&#xff0c;除非你的应用没有数据存储的需求&#xff0c;有了数据存储需求&#xff0c;我们就会面临使用什么样的数据库的选择问题&#xff0c;我的选择方案是&#xff0c;单机版的应用我优先选择 Sqlite…

django自定义后端过滤

​ DRF自带的过滤 第一个 DjangoFilterBackend 是需要安装三方库见[搜索&#xff1a;多字段筛选]两外两个是安装注册了rest_framework就有。 如上图&#xff0c;只要配置了三个箭头所指的方向&#xff0c;就能使用。 第一个单字段过滤 用户视图集中加上filterset_fields …

Qt 场景(QGraphicsScene)自绘可自由变换与移动的图元(QGraphicsObject)

文章目录 效果图矩形四个角矩形 效果图 在scene上绘制一个图元QGraphicsObject的矩形&#xff0c;可以自由拖动且拖动四个角可以自由变换矩形需要如下处理。 矩形四个角 四个角的点需要独立处理继承于QGraphicsObject,当我们点击时拖动时发送信号给矩形&#xff0c;进行矩形变…

SpringMVC(十二)SpringMVC执行流程

一、SpringMVC常用组件 DispatcherServlet:前端控制器,不需要工程师开发,由框架提供 作用:统一处理请求和响应,整个流程控制的中心,由它调用其它组件处理用户的请求 HandlerMapping:处理器映射器,不需要工程师开发,由框架提供 作用:根据请求的url、method等信息查找Han…

【关于python变量类型学习笔记】

python的变量类型 在创建变量时会在内存中开辟一个空间&#xff0c;变量是存储在内存中的值。 根据变量的数据类型&#xff0c;解释器会分配指定内存&#xff0c;并决定什么数据可以被存储在内存中。 变量可以指定不同的数据类型&#xff0c;这些变量可以存储整数&#xff0c;…

贝叶斯统计——入门级笔记

绪论 1.1 引言 全概率公式 贝叶斯公式 三种信息 总体信息 当把样本视为随机变量时&#xff0c;它有概率分布&#xff0c;称为总体分布&#xff0e; 如果我们已经知道总体的分布形式这就给了我们一种信息&#xff0c;称为总体信息 样本信息 从总体中抽取的样本所提供的信息 先…

【Effective Objective - C】—— 系统框架

【Effective Objective - C】—— 系统框架 47.熟悉系统框架CoreFoundation框架其他框架要点 48. 多用块枚举&#xff0c;少用for循环for循环使用Objective-C 1.0的NSEnumerator遍历快速遍历基于块的遍历方式要点 49.对自定义其内存管理语义的collection使用无缝桥接要点 50.构…

adb-常用命令

1. 连接设备&#xff1a;adb connect ip地址 2. 查询已连接设备列表&#xff1a;adb devices 3. 进入手机端后台&#xff1a;adb shell 4. 退出手机端后台&#xff1a;exit 5. 将手机端文件复制到pc端&#xff1a;adb pull 手机端文件路径/文件 pc端路径 6. 将pc端文件复制到…

代码随想录算法训练营Day 24|回溯算法:理论基础、LeetCode77 组合

理论基础 概念 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯。 回溯法的效率 回溯法并不是什么高效的算法&#xff0c;其本质是穷举&#xff0c;穷举所有可能&#xff0c;然后选出我们想要的答案&#…