当前位置: 首页 > news >正文

01Introduction

文本主题

关于协作式多智能体强化学习的简介


文章目录

  • 文本主题
  • 一、MARL主要框架
    • 集中式训练与执行 (CTE)
    • 集中式训练分布式执行(CTDE)
    • 分布式训练与执行(DTE)
  • 二、Dec-POMDP
    • joint policy V and Q


一、MARL主要框架

MARL当前主流的框架分为三种:
centralized training and execution (CTE), centralized training for decentralized execution (CTDE),and decentralized training and execution (DTE)

集中式训练与执行 (CTE)

CTE在训练与执行过程假设能够获取全局的信息,即每个智能体的动作是基于所有智能体的信息得来的,因此可以通过单智能体的算法简单实现(维护一个联合的动作状态空间)。其优势在于协作能力相比于其他的框架效果更优,然而其联合状态空间会随着智能体的增加呈指数型上升造成学习困难,维度爆炸。

CTE仅仅用于合作性质的MARL

集中式训练分布式执行(CTDE)

CTDE是最常用的框架,在训练过程利用全局信息,执行过程每个智能体基于自身观测输出策略,相较于CTE具有良好的拓展性。

经常用于合作场景,也适用于竞争或混合场景

分布式训练与执行(DTE)

DTE在训练与执行过程不需要考虑全局的信息,基于每个智能体自身的信息做出决策,将其他智能体作为环境的一部分,因此任何人RL算法都能够实现DTE框架,然而会带来信用分配以及环境非稳定的问题。

能够用于合作、竞争以及混合场景

后续文章会详细展开每个框架的实现以及优缺点

二、Dec-POMDP

协作式MARL能够被表示为decentralized partially observable Markov decision process (Dec-POMDP),其被定义为多元组 { I , S , [ A i ] , T , R , [ O i ] , O , H , γ } \{I,S,[A_i],T,R,[O_i],O,H,\gamma\} {I,S,[Ai],T,R,[Oi],O,H,γ}
其中含义如下:
在这里插入图片描述

由于全局状态不能直接被观测,因此每个智能体remember自身的history obs以及actions是必要的,局部的历史观测对可以表示为: h i = { a i , 0 , o i , 0 , . . . . , a t , 0 , o t , 0 } h_i=\{a_{i,0},o_{i,0},....,a_{t,0},o_{t,0}\} hi={ai,0,oi,0,....,at,0,ot,0}

joint policy V and Q

在这里插入图片描述

在这里插入图片描述

http://www.xdnf.cn/news/318079.html

相关文章:

  • Flowable7.x学习笔记(二十一)查看我的发起
  • uniapp 搭配 uCharts
  • 禁止idea联网自动更新通过防火墙方式
  • 2025-05-07 学习记录--Python-变量 + 常量 + 命名规则 + 变量的数据类型 + 数据类型
  • boost笔记: Cannot open include file: ‘boost/mpl/aux_/preprocessed/plain/.hpp‘
  • Decode rpc invocation failed: null -> DecodeableRpcInvocation
  • Notion Windows桌面端快捷键详解
  • [ linux-系统 ] 常见指令3
  • Linux 服务器静态 IP 配置初始化指南
  • UniAppx 跳转Android 系统通讯录
  • linux中的find命令——查找文件名
  • SSL/TLS 证书与数字签名:构建互联网信任的详解
  • Review --- Redis
  • 金融企业如何借力运维监控强化合规性建设?
  • 【hot100】bug指南记录1
  • Qt界面设计时窗口中各控件布局及自适应方法
  • [250507] 小米发布首个推理模型 MiMo,70亿参数展现卓越性能
  • 使用 Java 11 的 HttpClient 处理 RESTful Web 服务
  • 【Linux】Linux环境基础开发工具
  • 精益数据分析(46/126):深入剖析用户生成内容(UGC)商业模式
  • 并发设计模式实战系列(17):信号量(Semaphore)
  • 解构与重构:自动化测试框架的进阶认知之旅
  • Spring Boot 为 MongoDB 自动配置了哪些核心 Bean?
  • Make:独立创造者手册——从0到1的商业自由之路
  • 任意文件读取漏洞
  • 阿里联合北大开源数字人项目FantasyTalking,输出内容更加动态化~
  • HarmonyOS Next~HarmonyOS应用测试全流程解析:从一级类目上架到二级类目专项测试
  • 游戏引擎学习第262天:绘制多帧性能分析图
  • 标量/向量/矩阵/张量/范数详解及其在机器学习中的应用
  • MCP 入门指南