多智体具身人工智能:进展与未来方向(下)
25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。
具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大语言模型(LLM)等技术的成熟,具身人工智能已成为学术界和工业界的领先领域,其应用领域涵盖机器人、医疗保健、交通运输和制造业。然而,大多数研究都集中在通常假设静态封闭环境的单智体系统上,而现实世界的具身人工智能必须应对更为复杂的场景。在这样的环境中,智体不仅必须与周围环境交互,还必须与其他智体协作,这就需要复杂的机制来实现自适应、实时学习和协作解决问题。尽管人们对多智体系统的兴趣日益浓厚,但现有研究范围仍然狭窄,通常依赖于简化模型,无法捕捉多智体具身人工智能动态开放环境的全部复杂性。本文回顾当前的研究现状,分析关键贡献,并指出挑战和未来方向,旨在为指导该领域的创新和进步提供见解。
。。。。。。继续。。。。。。
多智体具身人工智能
现实世界的具身任务通常涉及多个智体或人机协作与竞争。在共享环境中,智体之间的动态交互会产生个体无法独自完成的群体级行为。因此,将为单智体设置设计的方法直接迁移到多智体系统 (MAS) 通常效率低下。MAS 的研究主要侧重于实现有效的协作。多智体协作方法的类别如下:控制与规划方法、基于学习的方法和基于生成模型的方法。
如表列出典型方法:
多智体控制与规划
在 MAS 中,基于控制的方法仍然是在任务约束下实现高精度实时决策的基本方法。早期方法将 MAS 建模为单个智体,并执行集中式控制和规划 [158, 5]。然而,这些方法面临着巨大的可扩展性挑战。为了解决这个问题,一些方法采用分布式策略,独立控制MAS中的每个智体[177],使其更适合大规模智体系统。然而,这种分散式方法往往难以解决智体之间的冲突。为了克服这些局限性,EMAPF [71]提出一个分组多智体控制框架。该框架根据智体的空间接近度动态地对其进行聚类,在每个组内应用集中控制,同时确保组间控制保持独立,如图所示。这使得大型空中机器人团队能够高效协调。
多智体交互学习
MAS中基于控制的方法与单智体场景类似,仍然面临着计算开销高和泛化能力有限等挑战。因此,基于学习的方法在多智体具身化人工智能中仍然至关重要。然而,与单智体设置不同,MAS中基于学习的方法还必须应对一些独特的挑战,包括异步决策、异构智体和开放的多智体环境。
异步协作。在多智体具身智能中,诸如通信延迟和硬件异构性等挑战常常会干扰智体之间的同步交互和来自真实环境的反馈,这使得在异步决策下进行有效的策略学习成为一项重大挑战。为了解决这个问题,ACE [223] 引入了宏动作的概念,其中宏动作作为整个 MAS 的中心目标。然后,各个智体基于此目标做出多个异步决策,并且只有在宏动作完成后才会提供来自环境的延迟反馈。为了促进这种设置下的策略学习,ACE 采用了基于宏动作的 MAPPO 算法,如图所示。这种方法已被证明是有效的,并启发了其他一些应对异步决策挑战的研究 [209, 210]。
异构协作。除了决策时间的差异之外,具身 MAS 的另一个关键区别是智体异构性。这指的是不同智体在感知能力、行动空间、任务目标、物理属性、通信能力和决策模型方面的差异。例如,在协同制造场景中,自动驾驶汽车可能负责运输货物,而机械臂则负责分拣任务。这两类智体在观测空间、行动空间和任务目标上存在显著差异,使其成为异构智体的典型例子。为了应对观测空间和行动空间差异带来的挑战,HetGPPO [10] 和 COMAT [19] 等方法提出为不同类型的智体使用单独的观测网络和策略网络。这些网络通过基于图的通信连接,从而实现有效的信息交换,如图中 COMAT 的架构所示。另一种方法侧重于调整学习算法本身,例如通过在异构智体之间分解优势函数,以促进更有效的信用分配 [254]。
开放环境中的自我进化。与明确定义的模拟场景不同,现实世界的具身任务通常发生在开放环境中,其中任务目标、环境因素(例如状态、行动和奖励函数)以及协作模式(例如队友和对手)等关键要素会持续且不可预测地发展 [231]。为了应对 MARL 中的这些挑战,研究人员提出稳健训练 [229, 232] 和持续协调 [230] 等方法,并取得了令人欣喜的成果。然而,具身场景中开放环境的不可预测性带来了更大的挑战,需要超越传统 MARL 技术的专业方法。最近,一些利用生成模型强大泛化能力的创新解决方案应运而生。例如,当协作者数量动态变化时,图神经网络 (GNN) 和 Transformer 等可扩展架构可以有效地编码交互信息,如图所示。通过将这些架构与分布式策略网络相结合,智体可以无缝适应团队规模的变化,确保稳健的协调 [19]。此外,通过结合自我博弈和其他自我反思和策略演进机制,MAS 可以持续提升在动态开放环境中的协作绩效 [54, 233]。
基于生成模型的多智体交互
尽管针对异步决策、异构智体和开放环境设计的算法在多智体具身化人工智能中已经取得了基于学习的进展,但由于合作行为的多样性以及观测数据的部分或缺失特性,挑战依然存在,导致探索效率低下和学习复杂度增加。为了解决这些问题,生成模型应运而生,成为增强多智体具身化系统决策能力的有力工具。它们可以引入先验知识来促进明确的任务分配,并利用其强大的信息处理能力来实现智能体间的通信和观测补全,从而实现分布式决策。此外,多智体系统不仅可能涉及自主智体,还可能涉及人类。通过利用生成模型的语言理解和生成能力,可以显著改善人机交互和协作,这标志着该领域一个独特而关键的应用。最后,多智体环境中更大的探索空间使得样本效率的挑战比单智体场景更加突出。因此,基于生成模型的数据增强技术对于提升多智体具身化人工智能的数据效率至关重要。
多智体任务分配。为了应对多智体具身人工智能中多样化协作行为带来的挑战,越来越多的研究开始利用预训练生成模型的先验知识和推理能力,将不同的任务明确地分配给不同的智体,从而显著减少每个智体的探索空间。例如,SMART-LLM [84] 利用预训练语言模型,首先将给定任务分解为多个并行子任务,然后根据智体的能力对其进行分组。随后,任务被相应地分配给每个组,例如,可以在不同的机器人吸尘器之间划分清洁区域,如图所示。这种任务分解和分配的范式已成为多智体具身人工智能的主流规划策略 [160, 29, 186]。在此基础上,一系列研究将任务分配和执行整合在一起。这些方法首先使用生成模型进行任务分配,然后继续使用相同或相似的模型执行任务,并根据执行结果调整分配,以形成更完整的工作流 [182, 106, 206, 27]。然而,上述方法通常仅关注基于生成推理的任务分配,往往忽略了子任务之间的依赖关系。例如,在“从封闭的盒子中取出扳手”任务中,子任务“打开盒子”必须先完成,然后“从盒子中取出扳手”。为了更好地捕捉这种依赖关系,最近的研究开始探索使用子任务依赖图来增强任务分配 [198, 131]。除了显式的任务分解外,另一项研究采用集中式生成模型来生成全局决策。然后,通过让每个智体模仿集中式模型生成的行为,将这些决策隐式地分布到各个智体之间,从而实现隐式任务分配 [104]。
多智体分布式决策。使用生成模型进行多智体具体化任务分解和规划,可以利用预训练过程中获得的先验知识和推理能力,满足现实世界协作任务的需求。然而,集中式任务规划和分配会损害合作的灵活性和可扩展性,通常需要频繁召回进行调整。因此,探索多个生成模型之间的协调至关重要。与 MARL 中经常在复杂任务中失败的独立方法不同,生成模型出色的感知和推理能力使得部署多个基于 LLM 智体成为可能,这些智体可以独立有效地执行决策和策略评估 [247, 193, 13, 63, 171, 188, 227]。例如,[63] 为每个智体配备自己预训练的生成模型。这些模型利用其强大的信息处理能力与其他智体通信,以完成缺失的观察或请求协助,从而促进分散协作,如图所示。然而,诸如信用分配和策略冲突等挑战仍然阻碍着完全分布式协作架构的有效性。因此,与 MARL 中的实践类似,一些研究开始加入一个额外的集中式生成模型来评估分布式生成模型所做的决策,从而增强其整体决策能力 [247, 63]。此外,通过引入一个基于 LLM 的共享全局反射器来评估协作过程中每个人的贡献,还可以实现多 LLM 合作中的有效信用分配。[13]。通过适当设计的系统拓扑和分层协作框架,基于生成模型的分布式决策能够扩展到包含多达数千个智能体的大规模系统 [239, 141]。
除了传统的集中式或分散式具身协作框架外,生成模型还具有独特的优势:它们允许智体之间进行协商 [110, 26, 63]。与智体每一步都进行一次规划的传统协作流程不同,多个 LLM 能够在每个规划阶段进行迭代协商,旨在共同确定最佳行动方案 [26]。与传统的协调方式不同,多 LLM 协商使具身 MAS 能够动态地选择和发展其成员资格、组织框架和领导角色,从而增强其在开放环境中处理复杂任务的能力 [110, 63]。
人机协调。人类与人工智能智体(机器人)之间的高效协作长期以来一直是人工智能研究的关键目标 [1]。人机协调 [184] 与人- AI 交互 (HAI) [179] 和人-机交互 (HRI) [133] 等研究领域密切相关,致力于增强人类与人工智能智能体之间的团队合作,以有效地完成复杂任务。合作型 MARL 以其强大的问题解决能力而闻名,为改善不同用户群体之间的人机协作提供了有希望的途径。然而,传统的 RL 方法往往无法完全捕捉人类行为固有的复杂性和多变性。近年来,随着多模态大模型(尤其是 LLM)的兴起,这些模型本身就涉及人在环的训练过程,研究人员开始利用这些模型中蕴含的广泛知识来设计复杂且自适应的人机协作策略 [241, 167, 63, 45, 61, 103, 4, 105, 53],如图 所示。在基于多 LLM 的智体场景中,可以通过用人类参与者代替沟通伙伴或团队领导来部分促进人类与 AI 智体之间的协作 [241, 167, 63]。然而,这种方法往往没有充分利用人类在协作过程中的优势。鉴于人类卓越的理解、推理和适应能力,近期方法强调人类的积极参与,以克服基于 LLM 的智体固有的局限性 [45]。例如,在导航任务中,遇到不确定性的智体可以通过自然语言查询主动向人类寻求缺失的感知或决策信息,从而使人类无需直接参与详细的任务规划或执行即可提供指导 [50]。此外,基于 LLM 的智体可以根据言语和行为线索主动推断人类意图,从而促进更直观、灵活和有效的人机协作,而无需明确的沟通请求 [187]。此外,这些智体可以随着时间的推移自主调整和改进其协作行为,通过交互不断发展,而无需明确的人类指令,从而支持持续有效的长期人机协作 [103]。如图所示一个基于生成模型的人机协调例子:
数据高效的多智体学习。由于基于模型的方法具有很高的样本效率,将世界模型应用于多智体协作学习一直是一个重要的研究课题。然而,在利用世界模型提高多智体协作效率的过程中,对智体之间的交互进行建模并从局部观察中推断全局状态仍然是一个关键难点。早期的研究尝试同时对两个协作机器人的动态进行建模,并取得了一些成功 [89],如图 (a) 所示。然而,随着协作智体数量的增加,这种方法很快变得效率低下。通过使用 VAE 和 Transformer 等生成模型进行局部观察融合、全局和局部建模的解耦以及自回归轨迹预测,现在可以使用世界模型对 MAS 的动态协作进行建模 [156, 183, 6, 109],如图 (b) 所示。一种方法是通过构建一个生成世界模型来应对城市交通背景下的这些挑战,该模型在物理和社会约束下模拟大规模异构智体,使用目的地和个性条件动态来促进现实和安全的多智体行为 [248]。作为补充,另一项工作侧重于以自我中心的 RGBD 观察为基础的物理具身智体,引入基于扩散的重建过程来建立环境的共享表示,并结合意图推理来促进无需直接通信的隐性协调 [242],如图 © 所示。
基准
与单智体具身智能的快速发展相比,多智体具身智能的进展相对有限,尤其是在标准化基准的制定方面。该领域现有的基准通常针对高度专业化的任务或定义狭窄的场景,限制了其更广泛的适用性和普遍性。为了解决这一问题,本文对当前的多智体具身智能基准进行了全面而系统的回顾(见表和下图)。通过详细的分析和结构化的比较,旨在为研究人员提供对最新研究成果的清晰概述,突出现有基准中的关键差距,并促进开发更稳健、更通用、更广泛适用的评估框架,以支持该领域的未来研究。
挑战与未来工作
尽管具身人工智能发展迅速,多智体具身人工智能也已初具雏形,但它仍面临诸多挑战,并展现出令人振奋的未来发展方向。
复杂具身人工智能交互理论。基于马尔可夫博弈提供的理论基础,MARL 引入了各种框架,用于有效地建模复杂环境中智体之间的合作 [244]。诸如价值分解(例如 VDN [169] 和 QMIX [144])之类的方法通过将联合目标分解为各个效用,提高了可扩展性,而像 COMA [48] 这样的反事实推理方法则显著提高了对单个智体贡献的归因准确性。迁移学习和网络化 MARL 的进展缓解了智体异质性和环境非平稳性带来的挑战。此外,控制理论与博弈论的融合促进了有效的协调策略,例如共识协议和分布式任务分配方法 [32]。然而,具身多智体人工智能带来了独特的理论挑战,包括异步感知、动作延迟、可观测性受限、通信限制以及显著的异质性,使得理论构建和实际实施都变得更加复杂。此外,虽然大型生成模型(尤其是 LLM)在促进规划和智体间通信方面展现出巨大潜力,但其理论特征(例如稳定性、泛化能力和可解释性)仍未得到充分理解 [166]。为了突破这些局限性,未来的研究应探索专门针对具身多智体系统(MAS)的新理论范式,利用因果推理等方法来揭示智体间依赖关系,利用复杂系统理论来理解涌现行为,以及利用可适应现实世界复杂性的分层仿生协调框架。
新算法设计。最近的发展巩固了 MARL 作为合作和竞争多智体场景基础框架的地位。一些值得注意的算法,包括采用单调值分解的 QMIX [144] 和基于近端策略优化的 MAPPO [222],已经在 SMAC 和谷歌的足球 (GRF)[231] 等基准环境中展现出令人信服的结果。然而,这些成功主要依赖于 CTDE 范式 [3],该范式假设理想条件和对智体动作的无限制访问——而这些条件在具体场景中很少能够实现。物理部署引入显著的复杂性,例如传感器噪声、驱动受限、反馈延迟和部分可观测性。此外,现有的多智体学习框架通常难以在训练分布之外进行泛化,并且在处理异构团队时可扩展性有限。具身多智体任务涉及多模态感知数据、多样化能力和动态交互,因此需要超越传统范式(例如 CTDE、DTDE(分散式训练和执行)或 CTCE(集中式训练和执行))的替代算法框架。未来有希望的发展方向包括分层协调结构、智能体分组机制以及结构化先验或经典控制理论的集成,以实现具身多智体系统 (MAS) 的可扩展性和鲁棒性。
有效且高效的学习。大多数多智体学习方法都是在模拟或游戏环境中开发的,得益于低成本、高度可重复的场景,这些场景允许通过频繁的交互采样进行广泛的策略优化。然而,由于状态和策略空间巨大,具身多智体任务的复杂性呈指数级增长,严重降低了采样效率,并使联合探索变得复杂 [2]。这些挑战在现实世界中更加严峻,因为每次交互都会耗费大量时间、财务成本和硬件磨损 [228]。尽管单智体具身学习的最新进展——例如从大型多模态模型(如 LLM 模型[22])中提取知识,采用基于世界模型的模拟进行策略部署[113],以及利用离线数据驱动的策略校准[83]——提高了样本效率,但由于复杂的交互和非平稳动态,这些策略在多智体情境中往往举步维艰。为了克服这些障碍,需要开发能够准确模拟交互动态的专用多智体世界模型、基于结构化先验知识的探索策略、通过学习器快速初始化以及用于提升泛化的元学习。此外,开发支持有效多任务和从模拟到现实迁移的稳健方法对于现实世界的适用性至关重要。
大型生成模型辅助学习。 GPT-4、PaLM、CLIP、SAM 和 Gemini 等大规模预训练模型的最新进展,通过提供强大的表征、感知和推理能力,显著重塑语言、视觉和多模态学习格局 [74]。这些基于海量多样化数据集训练的基础模型,提供了丰富的先验知识和强大的跨模态对齐能力,为增强具身人工智能 (embodied AI) 开辟了充满希望的途径。利用这些模型,智体可以获得更深入的语义理解、更卓越的泛化能力和更具自适应性的交互。然而,将这些基础模型直接部署到具身多智体场景中仍然具有挑战性 [29],因为它们通常源自静态的单智体环境,并且缺乏动态交互所必需的归纳偏差,这些交互涉及异步通信、部分可观测性、紧耦合策略和非平稳性。此外,具身多智体系统 (MAS) 通常涉及高维输入、广泛的动作空间和稀疏反馈,从而限制了其适应性和效率。近期单智体具身学习的洞见——例如少样本自适应、多模态联合预训练和模拟驱动的数据增强——提供了宝贵的可迁移知识[114]。未来的研究应侧重于开发可扩展的多智体预训练范式,将基础模型与强化学习和基于图的协调方法相结合,并增强从模拟-到-现实的迁移,从而为复杂、开放环境中的多智体具身人工智能构建稳健且可泛化的框架。
通用多智体具身人工智能框架。多智体具身人工智能的最新进展主要侧重于解决受限场景下的特定任务。虽然取得了显著进展,但这种侧重严重限制了策略的泛化能力和可扩展性。SMAC 和 GRF 等基准测试推动了多智体学习 (MARL) 的进展,但现有方法在处理多变的任务目标、环境动态和智体团队组成方面仍存在困难 [231]。像 Gato [145] 和 RT-X [137] 这样的单智体通才模型展示了统一架构在视觉、语言和控制领域广泛推广的潜力。将通才原则扩展到多智体设置会引入额外的复杂性,包括固有的非平稳性、复杂的智体交互和多重均衡。此外,当前的架构通常假设团队规模固定且智体同质化,从而限制可扩展性和适应性。近期的创新,例如多智体 Transformer (MAT) [201],通过置换不变表示解决了可扩展性问题,但仍存在重大挑战,尤其是在将多模态知识(例如,物理具身、社会推理、语言交互)集成到统一框架中方面。未来的发展将需要均衡感知的训练方法、模块化和可扩展的架构,以及鲁棒的多模态表示学习技术,从而实现在动态多智体环境中的可靠协调和泛化。
适应开放环境。与具身人工智能中通常假设的稳定封闭环境不同,开放环境场景 [257] 对多智体具身系统提出了重大挑战,因为它们本身具有动态、不确定和非平稳的特性。在这种环境中运行的智体经常会遇到不可预测的感官输入、不断变化的奖励结构、不断发展的任务以及频繁变化的智体群体。例如,场景可能包括嘈杂的观察、延迟或中断的反馈,以及从导航和探索到合作或竞争交互的任务转换。此外,团队组成很少是固定的,队友和对手的变化难以预测,这进一步增加了协调的复杂性。由于行为的多样性和难以预测性,人类的参与带来了额外的不确定性。这种多变性破坏了关于训练和部署环境之间一致性的假设,揭示了在稳定条件下优化的策略的脆弱性 [231]。因此,要在开放环境中实现有效的性能,需要智体具备能够抵御感官和环境干扰的鲁棒策略,能够整合新经验而不损害先前获得的技能的持续学习能力,以及能够与新智体进行动态交互解释和协调的情境推理能力。能够快速适应策略的方法,例如策略重用、隐变量建模和元学习,对于快速推广到以前未见过的情况变得不可或缺。尽管在鲁棒 MARL、终身学习和情境感知决策方面的最新进展令人鼓舞,但关键挑战仍未得到解决。未来的研究应优先考虑开放环境动态的准确建模、预测异构智体和人类行为以及实现实时算法自适应。
评估与验证。建立严谨而全面的评估框架对于推进多智体具身人工智能至关重要,但同时也极具挑战性。包括 CHAIC [38] 在内的近期平台(更多基准测试见上表)提供了宝贵的资源,但往往存在表征复杂性有限和生态效度不足的问题。当前的基准测试主要侧重于单模态任务,忽略了现实感知和决策所必需的多模态信号(视觉、语言、音频、视频)。此外,基准测试通常涉及小规模、同质的 MAS,无法充分体现由无人机、机械臂、自动驾驶汽车和四足机器人等多种具身构成的异构 MAS 所面临的复杂性。此外,理想化的假设(例如忽略部分可观测性、通信延迟、对抗行为和异步执行)扩大了模拟与现实之间的差距,削弱了策略的鲁棒性和可迁移性。为了突破这些局限性,未来的研究应致力于开发类似于 Gym、MuJoCo 或 PyMARL [150] 的通用、模块化、可扩展的评估框架,并融合多模态交互、异构协调和可复现性等特性。物理测试平台,包括机器人足球平台(例如 RoboCup [43])和无人机集群竞技场,对于验证现实世界的可行性和弥合模拟与现实之间的差异也至关重要。此外,由于现有指标(例如协调性得分、基于网络的指标)往往缺乏一致性和通用性,标准化和可解释的评估指标的缺乏仍未得到解决。因此,开发具有明确任务定义、全面评估标准(鲁棒性、可扩展性、能效、行为多样性)、开放访问排行榜和形式化验证方法的统一基准至关重要,尤其对于安全关键型应用而言。
应用与实现。多智体人工智能在机器人、教育、医疗保健、军事行动、交互式模拟和智慧城市基础设施等多个领域都拥有巨大的发展前景。在机器人领域,尤其是在工业制造、仓储物流和自动驾驶领域,成功的部署需要强大的实时协调、可靠的防撞和自适应平台,这强调了算法的泛化能力。涉及虚拟智体团队的教育应用需要可控的、符合社会规范的行为,因此对先进的自然语言处理和情感计算能力提出了很高的要求。在医疗保健领域,将机器人智体整合到医疗团队中,凸显了可靠决策、强大隐私保护和严格遵守伦理标准的必要性。协同无人机群等军事应用进一步凸显了这些挑战,强调了对抗条件下的策略稳健性,以及人类监督在降低与自主相关的伦理和操作风险方面的关键作用。以 OpenAI Five [8] 和 AlphaStar [185] 等平台为代表的交互式模拟和竞技游戏环境提供了宝贵的基准,但由于计算要求高以及难以将学习到的策略迁移到现实世界,也面临诸多限制。智慧城市场景,包括交通管理和电网优化,涉及众多自主智体之间的广泛交互,需要高度可靠、高效、安全且能对社会产生直接影响的解决方案。应对这些多元而又相互关联的挑战,需要整合专家领域知识、严格的验证程序和全面的安全框架,从而实现多智体具身人工智能系统在现实世界的实际部署。
其他方向。虽然前面讨论的部分强调了多智体具身人工智能面临的重大挑战,但还有一些其他基本问题值得深入研究。首先,多模态感知和协作学习仍未得到充分探索,当前的研究通常侧重于孤立的感知模态,很少有效地整合视觉、听觉和语言输入。因此,未来的研究应优先开发稳健的跨模态融合方法和高效的通信协议,以处理模态差异、信息不一致和延迟问题 [40]。其次,社会学习为涌现集体智慧提供了一条有希望的途径。尽管诸如信息学习和策略蒸馏等方法使智体群体能够表现出超越个体能力的协调性,但稳定的涌现行为所必需的理论基础和条件仍未得到充分理解 [127]。最后,随着 MAS 的自主性日益增强,解决安全和伦理问题变得至关重要,尤其是在敏感或高风险环境中[149]。必须制定明确的安全约束、清晰的伦理准则和透明的解释机制,以确保决策公平、负责且可解释,从而最大限度地降低复杂智体交互带来的意外风险,并确保人工智能部署的可靠性。