当前位置: 首页 > ops >正文

模仿学习笔记

模仿学习总共分两类:

  1. 行为克隆:BC,Dagger
  2. 逆强化学习:又分为
    2.1基于最大边际逆强化学习 (无法主要歧义问题):学徒学习
    2.2 基于最大熵逆强化学习 (主要解决歧义问题):GAIL

学徒学习
在这里插入图片描述

在这里插入图片描述

基于最大熵逆强化学习: 思路 把熵函数加入在强化学习优化目标中,求最大期望汇报同时,熵最大的那个 来解决歧义问题
在这里插入图片描述
通过优化方法,求最大化的对数似然,解出w,然后R=w*状态-动作特征 近似奖励函数
在这里插入图片描述
在这里插入图片描述

GAIL
参考GAIL

在这里插入图片描述

http://www.xdnf.cn/news/6394.html

相关文章:

  • Xinference 命令大全:从模型部署到管理
  • 《从零开始入门递归算法:搜索与回溯的核心思想 + 剑指Offer+leetcode高频面试题实战(含可视化图解)》​
  • 拷贝构造函数如果不加引用会怎样?
  • 【搭建Node-RED + MQTT Broker实现AI大模型交互】
  • 乐观锁、悲观锁、分布式锁
  • 金仓数据库使用sys_walfile_name函数时的时间线问题排查指南
  • [MySQL数据库] SQL优化
  • C++ asio网络编程(6)利用C11模拟伪闭包实现连接的安全回收
  • 牛客网NC22012:判断闰年问题详解
  • 串口共用错误排查指南(2025年5月15日 09:25)
  • 实战分析Cpython逆向
  • 树节点数据处理:属性拼接
  • scratch课后一练--运动模块
  • C++从入门到实战(十五)String(上)介绍STL与String的关系,为什么有string类,String有什么用
  • u3d 定义列表详细过程
  • 如何使用易路iBuilder智能体平台快速安全深入实现AI HR【实用帖】
  • 【实战篇】低代码报表开发——平台运营日报表的开发实录
  • Vue3 本地环境 Vite 与生产环境 Nginx 反向代理配置方法汇总【反向代理篇】
  • 《无限暖暖》画质测评
  • Python函数返回值的艺术:为何True/False是更优实践及例外情况分析
  • 自定义类型:结构体
  • 动态防御实战:如何用智能调度化解T级DDoS攻击
  • 【J2】乘法逆元
  • 【FileZilla】Client端的线程模型 (一)
  • Linux的进程管理和用户管理
  • 西门子S7-1200 MC卡使用方法及故障现象分析
  • R S的EMI接收机面板
  • 阿里开源通义万相 Wan2.1-VACE,开启视频创作新时代
  • P1303 A*B Problem
  • 山东大学计算机图形学期末复习7——CG11上