当前位置: 首页 > news >正文

多 Agent 强化学习实践指南(一):CTDE PPO 在合作捕食者-猎物游戏中的应用详解

我们来详细讲解如何在合作捕食者-猎物游戏中结合 PPO (Proximal Policy Optimization) 算法。我们将聚焦于 CTDE(Centralized Training, Decentralized Execution,集中训练、分散执行) 模式,因为这是处理合作多 Agent 任务的常用且有效的方法。

CTDE(Centralized Training, Decentralized Execution,集中训练、分散执行)模式是一种在人工智能、机器人系统、多智能体协作等领域广泛应用的框架,其核心思想是通过 “集中式训练” 提升系统性能,再通过 “分散式执行” 确保系统的灵活性、效率和鲁棒性。


合作捕食者-猎物游戏回顾

游戏目标

我们的目标是训练多个 捕食者 Agent协作捕捉一个或多个 猎物 Agent。当所有捕食者 Agent 将猎物完全围堵,使其无法移动时,即视为捕获成功。

游戏元素

  • 环境:一个网格地图,可能有障碍物。
  • 捕食者 Agent (NPN_PNP 个):我们的学习主体,例如 3 个捕食者。它们需要学习如何互相配合。
  • 猎物 Agent (NEN_ENE 个):被捕获的目标,例如 1 个猎物。为了简化,猎物可以采取随机移动、逃跑策略,或者是一个不会学习的简单 AI。
  • 状态
    • 每个捕食者的局部观测 (oio_ioi):例如,捕食者 iii 的当前位置、它周围一小块区域内的障碍物、其他捕食者和猎物的位置。
    • 全局状态 (sgs_gsg):所有 Agent 的完整位置信息,环境中的所有障碍物位置等。这个全局状态在训练时会被中央 Critic 使用。
  • 动作 (aia_iai):每个捕食者 Agent 可以选择向上、下、左、右移动一格,或保持不动。
  • 奖励 (RtR_tRt)
    • 捕获奖励:如果所有捕食者成功捕获猎物,所有捕食者都获得一个大的正奖励(例如 +100+100+100)。
    • 时间惩罚:每过一个时间步,所有捕食者都受到一个小小的负奖励(例如 −1-11),鼓励它们尽快完成任务。
    • 碰撞惩罚 (可选):Agent 之间或 Agent 与障碍物碰撞时,给予小额惩罚。

结合 PPO 的 CTDE 模式

PPO 是一种 On-Policy 算法,它通过限制每次策略更新的幅度来提高训练稳定性。在 CTDE 模式下,我们将利用一个中心化的 Critic 来评估全局状态,为去中心化的 Actor (策略网络) 提供更准确的指导。

1. 神经网络架构

我们将为每个捕食者 Agent 设计一个策略网络 (Actor) 和一个共享的价值网络 (Critic)。

同质 (Homogeneous) Agent:指所有捕食者 Agent 在功能上、能力上和目标上都完全相同。它们执行相同的动作集,接收相同类型的观测,并且都在为相同的团队目标而努力。
异质 (Heterogeneous) Agent:指 Agent在功能、能力或角色上存在差异。例如,一个捕食者是“速度型”,另一个是“力量型”,或者它们被明确分配了不同的子任务(如一个专门堵左边,一个专门追击)。

a. 策略网络 (Actor) πθi(ai∣oi)\pi_{\theta_i}(a_i | o_i)πθi(aioi)
  • 每个捕食者 Agent 都有一个自己的 Actor 网络(如果 Agent 是异质的),或者所有 Agent 共享一个 Actor 网络(如果它们是同质的)。
  • 输入:每个 Actor 接收其局部观测 oio_ioi
  • 输出:当前 Agent iii 在给定观测 oio_ioi 下采取每个可能动作的概率分布
    • 例如,一个小型 MLP(多层感知机)或 CNN(如果观测是网格图像)。
    • 通过 softmax 激活层将输出转换为概率。
b. 价值网络 (Critic) Vϕ(sg)V_\phi(s_g)Vϕ(sg)
  • 一个中心化的 Critic 网络,所有捕食者 Agent 共享这个 Critic。
  • 输入全局状态 sgs_gsg(或所有 Agent 的局部观测拼接在一起)。
    • 这样 Critic 就能看到整个游戏的局面,从而更准确地评估当前状态的价值。
  • 输出:一个单一的标量值,预测当前全局状态下的预期总奖励
    • 这通常也是一个 MLP。

2. PPO 训练流程 (CTDE 模式)

PPO 的训练是一个迭代过程:收集数据 -> 计算损失 -> 更新网络 -> 重新收集数据。

步骤 1:数据收集 (去中心化执行)
  1. 初始化环境:将捕食者和猎物 Agent 放置在地图上。
  2. 迭代模拟
    • 对于每个时间步 ttt,每个捕食者 Agent iii 根据其当前的策略网络 πθi\pi_{\theta_i}πθi,接收局部观测 oi,to_{i,t}oi,t,并从中采样一个动作 ai,ta_{i,t}ai,t
    • 记录每个 Agent 的动作概率 P(ai,t∣oi,t)P(a_{i,t} | o_{i,t})P(ai,toi,t) (来自 πθi\pi_{\theta_i}πθi 的输出)。这些是我们的 πθold\pi_{\theta_{\text{old}}}πθold 的概率。
    • 执行所有 Agent 的动作 a1:NP,ta_{1:N_P,t}a1:NP,t,环境转移到新状态,并给出团队奖励 RtR_tRt
    • 收集一整条轨迹 (episode),或者达到预设的步数(例如 KKK 步),然后将这些数据存入一个经验缓冲区。存储的内容包括:(oi,t,ai,t,Rt,P(ai,t∣oi,t))(o_{i,t}, a_{i,t}, R_t, P(a_{i,t} | o_{i,t}))(oi,t,ai,t,Rt,P(ai,toi,t)) 对于每个 Agent iii
    • 重要提示:这里的 RtR_tRt 是所有 Agent 共同获得的团队奖励。
步骤 2:计算优势函数 (Advantage Function)

在 PPO 中,我们使用优势函数 A^t\hat{A}_tA^t 来衡量一个动作相对于平均水平的好坏。在 CTDE 中,我们用中心化的 Critic 来帮助计算这个优势。

  1. 计算目标价值 (VtargetV_{\text{target}}Vtarget):对于轨迹中的每个时间步 ttt,目标价值 VtargetV_{\text{target}}Vtarget 可以通过折扣累积奖励计算(即 Rt+γRt+1+γ2Rt+2+…R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \dotsRt+γRt+1+γ2Rt+2+),或者更常用的是使用 GAE (Generalized Advantage Estimation)广义优势估计 来平滑估计。
    • GAE 公式
      δt=Rt+γVϕ(sg,t+1)−Vϕ(sg,t)\delta_t = R_t + \gamma V_\phi(s_{g,t+1}) - V_\phi(s_{g,t})δt=Rt+γVϕ(sg,t+1)Vϕ(sg,t)
      A^t=δt+γλδt+1+(γλ)2δt+2+…\hat{A}_t = \delta_t + \gamma \lambda \delta_{t+1} + (\gamma \lambda)^2 \delta_{t+2} + \dotsA^t=δt+γλδt+1+(γλ)2δt+2+
      其中 RtR_tRt 是在 ttt 时刻的团队奖励,γ\gammaγ 是折扣因子,λ\lambdaλ 是 GAE 参数。
    • 关键点:这里的 Vϕ(sg,t)V_\phi(s_{g,t})Vϕ(sg,t) 是由中心化的 Critic 网络全局状态 sg,ts_{g,t}sg,t 上预测的值。这是 CTDE 的核心,Critic 利用全局信息提供更准确的价值评估,帮助 Actor 计算更可靠的优势。
步骤 3:计算 PPO 损失并更新网络

从经验缓冲区中采样一批数据,然后进行 EEE 个 epoch 的训练。

  1. 计算策略损失 (Policy Loss) LpolicyL^{\text{policy}}Lpolicy

    • 对于每个 Agent iii,在时间步 ttt
      • 从当前的策略网络 πθi\pi_{\theta_i}πθi 计算动作 ai,ta_{i,t}ai,t 的新概率 Pnew(ai,t∣oi,t)P_{\text{new}}(a_{i,t} | o_{i,t})Pnew(ai,toi,t)
      • 计算策略概率比 rt=Pnew(ai,t∣oi,t)Pold(ai,t∣oi,t)r_t = \frac{P_{\text{new}}(a_{i,t} | o_{i,t})}{P_{\text{old}}(a_{i,t} | o_{i,t})}rt=Pold(ai,toi,t)Pnew(ai,toi,t)。这里的 PoldP_{\text{old}}Pold 是在数据收集阶段记录的概率。
      • 应用 Clipped Surrogate Objective:
        Lipolicy=−Et[min⁡(rtA^t,clip(rt,1−ϵ,1+ϵ)A^t)]L^{\text{policy}}_i = -\mathbb{E}_t \left[ \min \left( r_t \hat{A}_t, \text{clip}(r_t, 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right]Lipolicy=Et[min(rtA^t,clip(rt,1ϵ,1+ϵ)A^t)]
        注意,每个 Agent 的策略损失都使用相同的 A^t\hat{A}_tA^t,因为 A^t\hat{A}_tA^t 是基于团队奖励和中心化 Critic 估算的。
    • 总策略损失:所有 Agent 的策略损失之和 Lpolicy=∑i=1NPLipolicyL^{\text{policy}} = \sum_{i=1}^{N_P} L^{\text{policy}}_iLpolicy=i=1NPLipolicy
  2. 计算价值损失 (Value Loss) LvalueL^{\text{value}}Lvalue

    • 使用中心化 Critic 网络 VϕV_\phiVϕ 预测当前全局状态 sg,ts_{g,t}sg,t 的价值 Vϕ(sg,t)V_\phi(s_{g,t})Vϕ(sg,t)
    • 计算均方误差损失:
      Lvalue=Et[(Vϕ(sg,t)−Vtarget(sg,t))2]L^{\text{value}} = \mathbb{E}_t \left[ \left( V_\phi(s_{g,t}) - V_{\text{target}}(s_{g,t}) \right)^2 \right]Lvalue=Et[(Vϕ(sg,t)Vtarget(sg,t))2]
      其中 Vtarget(sg,t)V_{\text{target}}(s_{g,t})Vtarget(sg,t) 可以是 GAE 计算出的 Rt+γVϕ(sg,t+1)R_t + \gamma V_\phi(s_{g,t+1})Rt+γVϕ(sg,t+1)
  3. 熵奖励 (Entropy Bonus)

    • 为了鼓励探索,我们通常会加入一个熵奖励项 H(πθi)H(\pi_{\theta_i})H(πθi) 到策略损失中。
    • H(πθi)H(\pi_{\theta_i})H(πθi) 是 Agent iii 策略的熵,熵越高表示策略越随机。
    • 总损失中会减去这个项:−c2⋅∑i=1NPH(πθi)-c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})c2i=1NPH(πθi)
  4. 总损失函数 LLL
    L=Lpolicy+c1⋅Lvalue−c2⋅∑i=1NPH(πθi)L = L^{\text{policy}} + c_1 \cdot L^{\text{value}} - c_2 \cdot \sum_{i=1}^{N_P} H(\pi_{\theta_i})L=Lpolicy+c1Lvaluec2i=1NPH(πθi)
    其中 c1,c2c_1, c_2c1,c2 是超参数,用于平衡不同损失项的重要性。

  5. 优化:使用 Adam 等优化器对总损失 LLL 进行反向传播,更新所有 Actor 网络 θi\theta_iθi 和 Critic 网络 ϕ\phiϕ 的参数。

步骤 4:重复
  • 训练 EEE 个 epoch 后,丢弃经验缓冲区中的旧数据
  • 返回步骤 1,使用更新后的策略网络重新收集新的数据

为什么 CTDE PPO 适合这个游戏?

  • 处理非平稳性:虽然每个 Agent 独立执行,但中心化的 Critic 能够看到所有 Agent 的行为和全局环境,这使得它能够更好地处理其他 Agent 策略变化带来的环境非平稳性。
  • 信用分配:通过使用统一的团队奖励和中心化的价值函数,PPO 能够将成功的团队行为的奖励有效分配给每个 Agent,即使单个 Agent 的贡献在局部观测下不明显。
  • PPO 的稳定性:PPO 固有的策略截断机制有助于防止策略更新过大,这在多 Agent 环境中尤其重要,因为环境的动态性更高。

实现上的关键点

  • 环境接口:确保你的环境能为每个 Agent 提供其局部观测,并能接收所有 Agent 的动作。
  • 并行化:为了提高数据收集效率,可以并行运行多个环境实例,让多个 Agent 同时进行探索。
  • 超参数调优:PPO 的性能对超参数(学习率、γ,λ,ϵ,c1,c2\gamma, \lambda, \epsilon, c_1, c_2γ,λ,ϵ,c1,c2)比较敏感,需要仔细调优。

这个例子提供了一个扎实的基础,能够理解 PPO 在合作多 Agent 环境中的应用。随着你对这个例子的理解加深,你可以尝试更复杂的合作任务,引入更聪明的猎物,或者探索其他 MARL 算法。

http://www.xdnf.cn/news/1107253.html

相关文章:

  • GitHub 操作指南:项目协作与自动化工作流实践
  • 【小沐杂货铺】基于Three.JS绘制汽车展示Car(WebGL、vue、react、autoshow、提供全部源代码)
  • 【Elasticsearch】function_score与rescore
  • html-初级标签
  • 【离线数仓项目】——数据模型开发实战
  • S7-200 SMART PLC:硬件、原理及接线特点全解析
  • 别再怕 JSON!5分钟带你轻松搞懂这个程序员的好帮手
  • C#调用Matlab生成的DLL
  • C++ Map 和 Set 详解:从原理到实战应用
  • win10安装Rust Webassembly工具链(wasm-pack)报错。
  • 细谈kotlin中缀表达式
  • RISC-V:开源芯浪潮下的技术突围与职业新赛道 (四) 产业应用全景扫描
  • Vim的magic模式
  • javaEE——synchronized关键字
  • Linux解决vim中文乱码问题
  • Spring AOP 是如何生效的(入口源码级解析)?
  • leetcode:HJ18 识别有效的IP地址和掩码并进行分类统计[华为机考][字符串]
  • 【Datawhale AI夏令营】mcp-server
  • [Python] Flask 多线程绘图时报错“main thread is not in main loop”的解决方案
  • 【unity实战】在Unity实现低耦合可复用的交互系统
  • 14. 请谈一下浏览器的强缓存和协商缓存
  • 基于大模型的鼻咽癌全周期预测及诊疗优化研究报告
  • YOLO家族内战!v5/v8/v10谁才是你的真命天子?(附保姆级选择指南)
  • 推荐系统-数据分割、性能验证
  • 开源 python 应用 开发(五)python opencv之目标检测
  • (LeetCode 面试经典 150 题 ) 209. 长度最小的子数组(双指针)
  • Vue.js:从 Web 到桌面的跨端实践与技术选型指南
  • 华为IPD(集成产品开发)流程是其研发管理的核心体系
  • pdf合并
  • 基于Java的Markdown到Word文档转换工具的实现