波兰无人机具身导航基准测试与最新进展!FlySearch:探索视觉语言模型的探索能力
作者: Adam Pardyl, Dominik Matuszek, Mateusz Przebieracz, Marek Cygan, Bartosz Zieliński, Maciej Wołczyk
单位:波兰国家科学中心创新中心,雅盖隆大学数学与计算机科学学院,雅盖隆大学精确自然科学博士学校学院,华沙大学,Nomagic
论文标题:FlySearch: Exploring how vision-language models explore
论文链接:https://arxiv.org/pdf/2506.02896
代码链接:https://github.com/gmum/FlySearch
主要贡献
构建高保真度的户外环境:公开发布了两个使用Unreal Engine 5构建的高保真度户外环境,能够实现复杂、非结构化场景中对具身智能体的现实且可扩展的评估。
设计目标导向的探索挑战:定义了一系列基于目标的探索挑战,旨在衡量视觉语言模型(VLMs)和人类在开放世界场景中的探索能力。
基准测试与分析:对多种流行的VLMs进行了零样本设置下的基准测试,并识别出视觉、锚定和推理方面的一致性失败模式。
研究背景
视觉语言模型(VLMs)的兴起:VLMs在多种任务中表现出色,如图像描述、机器人控制等。然而,现实世界中的决策需要好奇心、适应性和目标导向的思维方式,而VLMs在真实、开放环境中的操作能力尚未得到充分测试。
目标导航(ObjectNav)任务的局限性:现有的ObjectNav基准大多关注室内环境,而本文提出的FlySearch则专注于在大型户外空间中使用无人机(UAV)寻找目标对象,更贴近现实世界的复杂性和挑战性。
零样本开放性探索设置:研究中采用零样本开放性探索设置,即测试方法不应在测试环境中对测试环境、对象类别或搜索过程本身做出任何先验假设,更贴近真实世界中的未知探索场景。
FlySearch
评估任务
环境
环境描述:FlySearch的评估环境是一个由Unreal Engine 5构建的正方形户外区域,包含一个片段化的、高度逼真的程序化生成地图。无人机(UAV)从区域中心的随机高度开始,目标是在有限的步数内找到目标对象。
目标对象:目标对象位于地图的某个位置,无人机需要通过视觉和语言推理来定位它。
场景生成:通过程序化生成技术,可以生成无限数量的场景,具有不同的环境特征,如一天中的时间、森林密度和无人机的起始高度。
起始Prompt
任务描述:模型接收到一个详细的Prompt,描述其任务,包括目标对象的文本描述(例如“红色皮卡”)以及通信格式。
格式要求:Prompt还说明了如何格式化响应,包括在响应前添加推理描述,允许模型进行推理链的输出。
观察
图像输入:在每个探索步骤中,模型会收到一个500×500像素的RGB图像,来自模拟无人机的摄像头。图像始终面向地面,并覆盖有坐标网格,以帮助模型理解移动方向和距离。
高度信息:模型还会收到无人机相对于地面的高度信息。
额外信息:在FS-2场景中,还会提供一个图像,展示目标对象从上方看起来的样子,以帮助模型更好地理解搜索目标。
动作
动作格式:模型通过提供简单的文本命令来控制无人机的移动,格式为
<action>(X, Y, Z)</action>
,其中X、Y和Z分别表示在相应方向上的相对位置变化。碰撞检测:如果检测到障碍物或无人机试图飞出飞行区域,移动将被停止。
任务完成:当模型认为找到目标时,应通过“FOUND”文本结束探索。
评估指标
成功标准:如果无人机在报告“FOUND”时目标对象可见,并且无人机与目标对象的最高点之间的高度差不超过10米,则认为任务成功完成。
评估流程
模拟器
使用Unreal Engine 5作为模拟引擎,提供照片级真实的图形,支持实时光线追踪和动态全局照明,同时支持大型详细开放世界。平台兼容所有主流操作系统,代码库开源,便于机器学习应用的定制。
模拟器可以运行在现代消费级显卡和深度学习专用解决方案上(前提是支持Vulkan),并且可以在离屏模式下运行,适合在标准计算集群上运行。
模拟器与评估控制器之间的通信通过标准TCP/IP网络进行,模拟器端的实现是一个本地Unreal Engine插件,基于UnrealCV项目进行扩展。
评估控制器
评估控制器是FlySearch的最后一个组件,负责整个基准测试过程的生命周期管理,包括设置场景、计算性能指标以及处理模拟器与被评估视觉语言模型(VLM)之间的通信。
控制器模块用Python实现,支持多种VLM,并且可以通过添加简单的适配器代码或使用开源的vLLM推理服务器轻松集成更多模型。
评估环境
森林环境
基于Unreal Engine的“Electric Dreams Environment”产品演示,包含稀疏的森林场景和随机放置的岩石。
地图完全在运行时由场景生成器程序生成,并且所有植被都会随风变化。
城市环境
基于Unreal Engine的“City Sample”演示,是一个大型现代美国风格的城市,城市布局是一个大约4×4公里的半程序生成地图。
新地图可以在构建时使用提供的工具生成,并且运行时场景生成器会随机生成干扰资产(停放的车辆和行走的行人)。
实验评估
基线模型
- 模型选择:
评估了多种流行的模型,包括3个闭源模型(OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 flash)以及9个开源模型。
开源模型包括4个小模型(参数少于11B)和5个大模型(参数多于11B)。所有模型的选择基于其处理完整评估运行的能力,能够将所有步骤保持在上下文中。
- 人类研究:
为了提供人类基线,分别对FS-1城市和FS-2进行了用户研究,样本量分别为111和51。参与者通过在线服务进行实验,他们需要按照VLM的Prompt完成相同的任务。
结果分析
- FS-1场景:
VLMs的表现显著低于人类,人类平均成功率为67%,而表现最佳的Gemini 2.0模型成功率为42%。大型开源模型如Pixtral表现稍差,小型开源模型则几乎无法完成任务。
小型模型的糟糕表现主要归因于它们无法遵循指令,即使目标在范围内,它们也经常不声明已找到目标。
- FS-2场景:
人类与VLMs的性能差距进一步扩大,人类平均成功率比最佳VLM模型高出约835%。这表明VLMs在需要系统性探索的复杂任务中表现不佳,它们往往随机移动,缺乏有效的探索策略。
- 微调结果:
经过GRPO微调的Qwen2.5-VL-7B模型在FS-1城市场景中的表现显著提升,但在FS-2场景中仍未取得成功。
- 定性分析:
分析失败的探索轨迹发现,即使是SOTA的模型也存在空间推理问题。例如,当模型失去目标视野时,它往往会回溯其移动或开始幻觉,而不是朝目标的最后已知位置移动。
- 目标类别分析:
对于FS-1中的特定目标类别,大型目标(如建筑物)的成功率高于小型目标(如单个人)。此外,VLMs在森林中寻找垃圾堆的成功率高于在城市中,尽管垃圾堆在城市中从远处更易被发现。
- FS-Anomaly-1场景:
模型平均成功率低于FS-1,表明模型难以识别出环境中不寻常的对象。当明确指定异常对象类型时,模型性能有所提高。
- 步数限制的影响:
改变每集的步数限制对模型性能也有影响。将步数限制从10步减少到5步时,Gemini和Pixtral的性能分别下降了10%和17%;而将步数限制增加到20步时,Gemini的性能下降了6%,Pixtral的性能下降了17%。这表明模型在需要长时间推理和信息收集时表现不佳。
结论与未来工作
- 结论:
FlySearch通过在复杂三维环境中导航和寻找目标对象的任务,揭示了VLMs在探索能力上与人类基线相比存在显著差距,尤其是在需要系统性探索的复杂任务中。
尽管VLMs具备基本的导航和视觉理解能力,但它们在形成和执行有效的探索策略方面存在不足,即使经过微调,这些根本性问题仍然存在。
- 未来工作:
虽然本文主要关注纯VLM的探索能力,但未来可以测试更复杂的ObjectNav方法在FlySearch中的表现,以获得更深入的见解。
此外,还可以探索通过少样本学习或Prompt优化工具来提高VLMs在该任务中的表现。