【AI论文】VS-Bench:评估多智能体环境中的视觉语言模型(VLM)在策略推理与决策制定方面的能力
摘要:视觉语言模型(VLMs)的最新进展已经将其功能扩展到交互式代理任务,但现有的基准仍然局限于单代理或纯文本环境。 相比之下,现实场景通常涉及多个代理在丰富的视觉和语言环境中进行交互,这对多模态观察和策略交互都提出了挑战。 为了弥合这一差距,我们引入了视觉战略基准(VS-Bench),这是一个多模态基准,用于评估VLM在多智能体环境中的战略推理和决策。 VS-Bench由八个视觉基础环境组成,涵盖合作、竞争和混合动机的交互,旨在评估智能体预测他人未来行动并优化长期目标的能力。 我们考虑了两个互补的评价维度,包括通过下一步行动预测准确度对战略推理进行离线评估,以及通过归一化事件回报对决策进行在线评估。 对14个领先的VLM进行的广泛实验表明,当前模型与最佳性能之间存在显著差距,最佳模型的预测准确率为47.8%,归一化收益率为24.3%。 我们进一步对多模态观察、测试时间缩放、社会行为和VLM代理的失败案例进行了深入分析。 通过标准化评估并强调现有模型的局限性,我们设想将VS-Bench作为未来战略多模态代理研究的基础。 代码和数据可在https://vs-bench.github.io。Huggingface链接:Paper page,论文链接:2506.02387
研究背景和目的
研究背景
近年来,视觉语言模型(Vision Language Models, VLMs)在人工智能领域取得了显著进展,其能力已从静态的图像标注和视觉问答扩展到动态的交互式任务,如软件工程、计算机使用、游戏环境和具身控制等。然而,现有的VLMs评估基准主要集中于单智能体或纯文本环境,忽略了多智能体环境中特有的复杂性和挑战。在现实世界中,智能体往往需要在包含丰富视觉和语言信息的多智能体环境中进行交互,这不仅要求它们具备处理多模态信息的能力,还需要在不确定的环境下进行策略推理和决策制定,以实现长期目标。
具体而言,多智能体环境中的策略推理涉及推断其他智能体的隐藏信念、欲望和意图,这对于合作、竞争和混合动机的交互至关重要。而决策制定则要求智能体在非平稳的动态环境中优化长期回报,平衡即时收益与未来积累收益,并适应其他智能体的同时学习和适应。然而,现有的VLMs在这些方面的表现仍然有限,尤其是在处理复杂视觉状态和进行多智能体策略交互时。
研究目的
为了填补这一研究空白,本文引入了视觉战略基准(Visual Strategic Bench, VS-Bench),这是一个专门设计用于评估VLMs在多智能体环境中进行策略推理和决策制定能力的多模态基准。VS-Bench包含八个视觉基础环境,涵盖合作、竞争和混合动机的交互类型,旨在全面评估智能体预测他人未来行动和优化长期目标的能力。通过构建这样一个基准,本文旨在:
- 提供一个统一的评估平台:用于标准化评估VLMs在多智能体环境中的策略推理和决策制定能力。
- 揭示现有模型的局限性:通过广泛的实验和深入分析,揭示VLMs在多模态观察、测试时间缩放、社会行为和失败案例等方面的不足。
- 推动未来研究:通过开源VS-Bench的代码和数据,鼓励研究人员探索新的模型架构和训练方法,以提升VLMs在多智能体环境中的性能。
研究方法
基准设计
VS-Bench包含八个视觉基础环境,这些环境从博弈论和多智能体强化学习(MARL)文献中精心挑选并改编而成,每个环境都保留了其战略动态,同时融入了图像和文本观察。这些环境分为三类:
- 合作游戏:如Hanabi和Overcooked,要求智能体理解队友意图、分配任务并协调行动以实现共同目标。
- 竞争游戏:如Breakthrough、Kuhn Poker和Atari Pong,要求智能体建模对手、预测其未来行动并保持对对抗性动态的鲁棒性。
- 混合动机游戏:如Coin Dilemma、Monster Hunt和Battle of the Colors,要求智能体平衡自私利益与集体福利,在高回报均衡中实现可持续合作。
评估维度
VS-Bench从两个互补的维度对VLMs进行评估:
- 离线评估策略推理:通过预测其他智能体下一步行动的准确度来评估。为此,为每个环境构建了一个离线数据集,包含图像和文本观察序列以及相应的下一步行动标签。
- 在线评估决策制定:通过智能体在完整长度的事件中通过自玩或与常规智能体交互获得的归一化事件回报来评估。使用随机智能体和具有最大回报的智能体作为基准来归一化结果。
实验设置
选择了14个领先的VLMs进行评估,包括五个商业推理模型、六个商业聊天模型和三个开源模型。所有模型在温度为1.0和最大输出令牌数为8k的条件下进行评估。对于推理模型,还设置了最大推理令牌数为16k。实验中详细记录了每个模型的配置和版本信息。
研究结果
策略推理评估结果
实验结果显示,现有的VLMs在策略推理方面表现出初步能力,能够超越随机猜测,但与最佳性能相比仍有显著差距。最佳模型o4-mini在所有环境中的平均预测准确度为47.8%,而随机基准为24.3%,最优性能为100%。推理模型通常比聊天模型和开源模型表现更好,但即使是最先进的模型也未能达到高准确度。
决策制定评估结果
在决策制定方面,现有的VLMs在多智能体环境中的表现同样有限。最佳模型o4-mini在所有环境中的平均归一化回报为24.3%,而随机基准为0,最优性能为100%。六个模型的表现甚至低于随机基准,表明它们在非平稳、相互依赖的多智能体动态下无法优化长期回报。然而,值得注意的是,一些开源模型在某些混合动机游戏中表现出了与商业推理模型相当的结果。
深入分析
-
多模态观察:实验表明,现有的VLMs在处理多模态观察时未能有效提取视觉信息以改善策略推理和决策制定性能。在合作纸牌游戏Hanabi、竞争棋盘游戏Breakthrough和混合动机视频游戏Monster Hunt中,使用文本唯一观察的结果通常优于使用多模态观察的结果。
-
测试时间缩放:推理和思维链(Chain-of-Thought, CoT)提示等测试时间缩放方法可以显著提高VLMs在多智能体环境中的性能。CoT提示通过引导模型逐步推理其决策过程,帮助聊天模型在所有三个环境中都取得了更好的性能。
-
社会行为:在混合动机社交困境游戏中,开源VLMs在某些情况下能够表现出与商业推理模型相当的结果,尤其是在表现出亲社会行为以实现互利时。例如,在Coin Dilemma中,InternVL3-78B更倾向于合作收集自己的硬币而不是他人的硬币,从而实现了双赢局面。
-
失败案例:通过分析VLMs的失败案例,发现它们在策略推理中常忽略历史和私有信息,在决策制定中则常过度关注自己的行动而忽略他人的行动。这些失败案例为未来的模型改进提供了有价值的见解。
研究局限
尽管VS-Bench为评估VLMs在多智能体环境中的策略推理和决策制定能力提供了一个有价值的平台,但本研究仍存在以下局限:
-
智能体数量有限:许多现实场景涉及超过两个参与者的交互,而VS-Bench当前的环境主要集中于双人游戏。虽然一些环境如Hanabi支持最多五个玩家,但未来工作可以扩展到更多智能体的环境。
-
人类基准缺失:目前使用随机和最优智能体作为VLMs性能的参考基准。未来的改进可以包括引入具有不同专业水平的人类参与者实验,以建立有意义的人类基准进行模型比较。
-
评估指标单一:对于策略推理评估,目前使用下一步行动预测准确度作为指标。包括召回率和F1分数等其他指标可以更全面地评估模型的不同推理能力方面。对于决策制定评估,目前使用自玩或与常规智能体对抗的事件回报。包括与多样化智能体群体对抗的结果可以提供更彻底的VLMs泛化和适应能力评估。
未来研究方向
基于VS-Bench的评估结果和深入分析,未来的研究可以在以下几个方面展开:
-
提升多模态处理能力:开发新的模型架构和训练方法,以更有效地处理多模态观察,提取视觉信息并改善策略推理和决策制定性能。
-
探索测试时间缩放方法:进一步研究推理和CoT提示等测试时间缩放方法在多智能体环境中的应用,以提升VLMs的性能。
-
促进亲社会行为:在混合动机游戏中,鼓励VLMs表现出亲社会行为以实现互利,这可以通过设计新的奖励机制或训练方法来实现。
-
扩展到更多智能体和环境:将VS-Bench扩展到包含更多智能体和更复杂环境的多智能体系统中,以更全面地评估VLMs的性能。
-
结合人类参与者的评估:引入人类参与者实验,以建立有意义的人类基准,并更准确地评估VLMs在多智能体环境中的性能。
-
跨领域应用:探索VS-Bench在其他领域的应用潜力,如自动驾驶、机器人控制和智能交互系统等,以推动多智能体系统的发展和应用。