当前位置: 首页 > ds >正文

Offline Transition Modeling via Contrastive Energy Learning

ICML 2024
paper
code
学习高质量的动力学模型对于顺序决策任务非常重要,尤其是在离线环境下。然而,真实世界环境中过渡动态的复杂行为给标准前向模型带来了挑战,因为这些模型偏向于平滑回归因子,与过渡的固有特性(如不连续或大曲率)相冲突。在这项工作中,建议通过标量值能量函数对过渡概率进行直观建模,这样不仅可以灵活预判分布,还能捕捉复杂的过渡情况。研究表明,基于能量的过渡模型(ETM)能准确拟合不连续的过渡函数,并能更好地泛化分布外过渡数据。此外,在 DOPE 基准测试中,证明基于能量的过渡模型提高了评估精度,并明显优于其他off-policy评估方法。最后证明了基于能量的过渡模型也有利于强化学习,并在 D4RL Gym-Mujoco 任务中优于先前的RL 算法。

总结:采用能量模型对动力学模型建模,训练能量模型则是采用对比学习(正样本为离线数据集真实转移,负样本为K-1个基于模型的通过Langevin MCMC 采样)

Method

能量模型

在这里插入图片描述

Langevin MCMC 采样

在这里插入图片描述
其中z为高斯噪声

能量模型训练

在这里插入图片描述
在这里插入图片描述

策略训练

采用集成能量模型,使用五个 ETM 的集合来进行策略优化,每一步都随机选择五个模型中的一个来生成过渡。提出的 EMPO 使用 Soft-Actor-Critic (SAC) 作为基础策略优化算法,并采用模型预测下一状态的不确定性估计作为奖励惩罚,实现保守估计:
在这里插入图片描述

Results

在这里插入图片描述
展示能量模型的泛化性,在非平滑和依赖外推法的数据上具有出色的普适性,表明在规避平滑近似值造成的负面干扰的同时,还能巧妙地捕捉到数据模式

在这里插入图片描述

其他

该集成能量模型使用Online的效果(结合MBPO)

http://www.xdnf.cn/news/12299.html

相关文章:

  • 【iSAQB软件架构】软件架构中构建块的视图:黑箱、灰箱和白箱及其交互机制
  • vue和uniapp聊天页面右侧滚动条自动到底部
  • 计算机网络领域所有CCF-A/B/C类期刊汇总!
  • 低代码逻辑引擎配置化实战:三步穿透审批记录查询
  • 鞋内测量新方案:Moticon传感器鞋垫OpenGo在运动科学中的平衡测试应用
  • BIM Revit教程(十一)如何使用机器学习实现 MEP 布局自动化?
  • NumPy数组操作完全指南:从入门到精通
  • 【Zephyr 系列 9】Zephyr 与设备树机制详解:如何为你的板子编写 Devicetree
  • open3d:使用彩色图和深度图生成点云
  • 拆解实战案例:电商ERP管理系统从需求到原型全流程设计
  • 深度学习习题3
  • IDEA 包分层显示设置
  • Postgresql字符串操作函数
  • 《前端面试题:CSS3新特性》
  • 结合PDE反应扩散方程与物理信息神经网络(PINN)进行稀疏数据预测的技术方案
  • 【VLAs篇】02:Impromptu VLA—用于驱动视觉-语言-动作模型的开放权重和开放数据
  • reverse笔记
  • 深度学习在非线性场景中的核心应用领域及向量/张量数据处理案例,结合工业、金融等领域的实际落地场景分析
  • 比特币:固若金汤的数字堡垒与它的四道防线
  • 【Redis】笔记|第9节|Redis Stack扩展功能
  • PPT转图片拼贴工具 v2.0
  • Linux(12)——基础IO(下)
  • 泊松融合的介绍和OpenCV教程
  • pikachu靶场通关笔记15 CSRF关卡01-CSRF(GET)
  • 机器学习实验八--基于pca的人脸识别
  • OPenCV CUDA模块目标检测----- HOG 特征提取和目标检测类cv::cuda::HOG
  • NoSQL之Redis配置与优化
  • 阿里云 Linux 搭建邮件系统全流程及常见问题解决
  • rust或tauri项目执行命令的时候,cmd窗口也会弹出显示解决方法
  • Flutter嵌入式开发实战 ——从树莓派到智能家居控制面板,打造工业级交互终端