当前位置：首页 > news >正文

动态环境下的人员感知具身导航！HA-VLN：具备动态多人互动的视觉语言导航基准与排行榜

news 2025/8/30 12:44:24

作者：Yifei Dong $^{1}$ , Fengyi Wu $^{1}$ , Qi He $^{1}$ , Heng Li $^{1}$ , Minghan Li $^{2}$ , Zebang Cheng $^{1}$ , Yuxuan Zhou $^{3}$ , Jingdong Sun $^{4}$ , Zhi-Qi Cheng $^{1}$ , Qi Dai $^{5}$ , Alexander G Hauptmann $^{4}$
单位： $^{1}$ 华盛顿大学， $^{2}$ Galbot， $^{3}$ 曼海姆大学， $^{4}$ 卡内基梅隆大学， $^{5}$ 微软研究院
论文标题：HA-VLN: ABenchmark for Human-Aware Navigation in Discrete–Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard
论文链接：https://arxiv.org/pdf/2503.14229
项目主页：https://ha-vln-project.vercel.app/
代码链接：https://github.com/F1y1113/HA-VLN

主要贡献

提出了HA-VLN基准测试，将离散和连续导航范式统一起来，并在明确的社会意识约束下进行。它包括标准化的任务定义、升级的数据集和模拟器、广泛的基准测试、真实世界的机器人测试以及公开的排行榜。
标准化任务与指标：将离散和连续导航在社会意识约束下统一起来，确保目标和评估的一致性。
升级数据与HA-VLN模拟器：在HAPS 1.0的基础上，提出了HAPS 2.0（包含486个SMPL序列），并开发了两个先进的模拟器（HA-VLN-DE和HA-VLN-CE），它们结合了多视角人类标注、双线程渲染和严格的碰撞检查，能够容纳多达910个活跃个体。
全面的基准测试：在R2R-CE的基础上增加了16,844条以人为中心的指令，并在统一的指标下对多个智能体进行基准测试，揭示了多个人类动态和部分可观测性给领先的VLN智能体带来的巨大挑战。
真实世界验证与排行榜：通过物理机器人在拥挤的室内空间中成功导航，有力地证明了从模拟到现实的转移，并提供了一个公共排行榜，用于在多个人类场景中对离散和连续任务进行全面评估。

研究背景

视觉语言导航（VLN）系统：使机器人能够理解多模态指令并在真实或模拟空间中导航。然而，现有的VLN系统大多只关注离散（全景）或连续（自由运动）范式之一，忽略了人类动态和部分可观测性的复杂性，这限制了它们在现实世界中的适用性。
存在的挑战：社会意识未被充分探索，人类参与者常被忽视或简化为静态障碍；指令复杂性未被现有语料库很好地捕捉；静态环境假设占主导，忽视了实时重规划的需求。

人类感知的视觉语言导航任务

任务动机与概述

动机：传统VLN系统大多忽视了人类动态和部分可观测性，而现实世界中的导航场景往往涉及动态的人类活动，如人群移动、个人空间需求等。因此，提出了人类感知的视觉语言导航（HA-VLN）任务，要求智能体在遵循自然语言指令的同时，能够应对动态的人类活动，预测人类运动，尊重个人空间，并调整路径以避免碰撞。
概述：HA-VLN任务要求智能体在动态环境中导航，同时遵循自然语言指令。与标准VLN不同，HA-VLN中的智能体需要考虑人类的动态行为，如“去楼上，那里有人边走边打电话……”，并据此调整路径。

状态与动作空间

状态空间：在每个时间步 $t$ ，智能体的状态 $st=⟨pt,ot,ΘFOVt⟩s_t = \langle p_t, o_t, \Theta_{FOV}^t \rangle$ ，其中 $p_t$ 是智能体的3D位置， $o_t$ 是其朝向， $ΘFOVt\Theta_{FOV}^t$ 是其以自我为中心的视图。在离散环境（DE）中，智能体在预定义的视点之间跳跃，每个视点提供一个RGB观测。在连续环境（CE）中，智能体看到一个90°视场的RGB+D（深度）馈送，并可以进行小增量移动（例如，向前移动0.25米，转动15°）。
动作空间：在两种环境中，动作空间均为 $A = \{a_{forward}, a_{left}, a_{right}, a_{up}, a_{down}, a_{stop}\}$ 。

人类感知约束

动态人类模型：人类根据HAPS 2.0中的3D运动轨迹自然移动，这些运动轨迹会实时更新。
个人空间：智能体必须避免过于接近人类（在DE中距离小于3米，在CE中距离小于半径之和）。
以人为中心的指令：语言通常描述人及其活动（例如，“绕过正在打电话的人”），需要文本提示与实时视觉输入之间的一致性。这些详细的人类位置和运动是通过多阶段管道标注的，涉及广泛的标记和验证以确保真实性。

动态与部分可观测性

由于人类可能不可预测地移动，每个时间步是一个部分可观测马尔可夫决策过程（POMDP）。新状态 $s_{t+1}$ 取决于智能体的动作和同时发生的人类运动（例如，有人让开或从走廊中出现）。
智能体必须推断未观测到的因素——例如，一个人是否会让出空间——并在探索（寻找替代路线）和利用（继续已知路径）之间取得平衡，以高效地到达目标。

挑战与DE-CE协同作用

挑战：
- 社交导航：无碰撞运动，尊重个人空间。
- 人类对齐指令：语言可能涉及短暂的活动或互动。
- 自适应重规划：人类可以不可预测地阻塞或解阻通道。
DE与CE协同作用：DE允许通过离散视点跳跃快速原型设计，而CE近似于现实世界的动态和运动保真度。通过整合这两种方法，HA-VLN涵盖了从大规模模拟到实际机器人部署的整个范围，显著扩展了社会意识、以人为中心的导航研究。

HA-VLN模拟器

动机与概述

动机：现有的模拟器要么忽视人类行为，要么将人类建模为静态障碍。HA-VLN模拟器通过在离散和连续的3D环境中放置多个动态移动的人类，解决了社会意识导航中的长期挑战。它具有高保真度的运动、多人互动和现实世界的复杂性，如群体聚会、自发运动和个人空间限制。
概述：HA-VLN模拟器基于HAPS 2.0数据集，利用486个运动序列，涵盖了室内和室外活动。它提供了两个互补模块：HA-VLN-CE用于连续导航，HA-VLN-DE用于离散导航。这两个模块共享一个统一的API，提供一致的人类状态查询、动态场景更新和碰撞检查。

HAPS 2.0数据集

运动描述对齐：HAPS 2.0数据集通过两轮人工验证来对齐文本描述和运动数据，消除了HAPS 1.0中超过一半的不准确配对，最终得到172个精确对齐的运动。
多样化区域-运动关系：重新组织区域-运动关联，使同一运动能够适应各种环境，包括室内外场景，从而更真实地反映人类行为，减少环境偏差，提高现实世界适用性。
与HAPS 1.0的对比：HAPS 2.0在运动准确性、环境兼容性、失败案例数量和标注工作量等方面均优于HAPS 1.0。它包含26个不同区域，覆盖90个建筑场景，涵盖486个人类活动。

标注流程：粗粒度到细粒度

粗粒度标注

区域定义与对象列表：定义每个区域的边界坐标和对象列表。
安全距离约束：设置人类与对象之间的最小安全距离为1米，确保布局真实，同时为智能体通行留出空间。
自适应惩罚：适应性地对违反约束的布局（如与墙壁相交或人类重叠）施加惩罚，以阻止不可行的姿势并促进场景几何对齐。

细粒度标注

相机位置与角度：设置九个RGB相机的位置和角度，以提供全面的多视角视图，用于检测人类与周围物体之间的潜在碰撞或对齐问题。
细标注协议：通过六步程序来微调人类的位置和朝向，包括初始视图、多相机观察、垂直碰撞检查、水平平移、侧相机审查和最终输出。

多人类互动与运动丰富

人类在环方法：使用大模型（如ChatGPT-4和LLaMA-3-8B-Instruct）提出合理的多人类场景。每个提示都整合了有关现有人类运动、对象位置和区域上下文的详细信息，引导语言模型生成丰富的多角色互动。
迭代标注工作流：对语言模型产生的候选互动进行四轮手动细化和验证，以纠正不一致之处并确保上下文对齐。
丰富互动的例子：展示了如何通过添加额外的人类来丰富场景，例如在客厅中，两个人坐在沙发上分享爆米花，而第三个人在电视前欢呼。

实时渲染与智能体交互

多线程管道：通过受生产者-消费者原则和Java风格信号启发的多线程管道，将动态人类模型集成到模拟中。智能体可以实时观察和响应人类运动，从而促进适应性导航策略。
系统初始化：加载环境、人类运动数据和对象模板管理器，以高效处理3D模型模板。
信号发送线程（线程1）：以固定频率将“刷新”信号放入队列，模拟人类运动的连续更新。
主线程（线程2）：在智能体即将行动时，检查队列中的刷新信号，计算当前帧索引，并更新人类模型的位置和朝向。

API设计

离散环境（DE）：通过实时导航图跟踪所有智能体和人类的位置，以2D顶视图显示。每个人类的活动都存储为一个元组，包含人类的2D坐标、与智能体的距离、相对朝向和活动状态。
连续环境（CE）：API主要关注三个组件：人类活动监控、环境感知和导航支持。实时跟踪和分析人类活动，维护动态场景图，并使用基于A*的规划器计算候选轨迹，同时考虑动态人类和静态障碍物。

HA-VLN智能体

HA-R2R数据集

现有的Room-to-Room in Continuous Environment（R2R-CE）数据集缺乏对人类互动的明确关注。因此，研究者开发了HA-R2R数据集，扩展了R2R-CE，增加了16,844条精心策划的指令，强调社交细微差别，如对话、走廊交叉和近碰撞事件。

通过设计针对大型语言模型（LLM）的目标提示来生成这些丰富的指令，捕捉多样化的现实世界社交场景。
这些指令从静态路径转变为需要智能体解释如“避开在酒吧附近聊天的情侣”或“让出正在穿过走廊的人”的指令。

HA-VLN-VL智能体

基于Recurrent VLNBERT，采用模仿学习方法，强调在复杂设置中仅通过更强的多模态基础就能提升性能。

在每个时间步 $t$ ，智能体更新其隐藏状态 $s_t$ 并预测动作分布 $p_a^t$ 。
使用多层Transformer处理输入，使用专门的状态标记来关注语言和视觉标记。最终动作概率是注意力权重的平均值。

HA-VLN-CMA智能体

基于交叉模态注意力（CMA），在每个时间步融合文本嵌入和视觉特征，通过多头注意力机制产生联合表示，然后通过MLP映射到动作概率。

利用环境Dropout（Envdrop）和数据集聚合（DAgger）来解决部分可观测性和不可预测运动的挑战。
Envdrop随机掩盖视觉语言流中的特征，模拟人群或遮挡物体造成的遮挡。
DAgger维护智能体状态的重放缓冲区，使智能体能够迭代纠正先前的错误。

真实世界验证与排行榜

真实世界验证与设置

实验设置：在四种室内空间（办公室、客厅、走廊、大厅）中部署训练有素的智能体，每个空间都有2-4名自由移动的志愿者。实验在适度拥挤的条件下进行，但面临在狭窄走廊或人群突然聚集时的挑战，突出了在部分可观测性下稳健重新规划的需求。
硬件平台：使用Unitree Go2-EDU四足机器人，配备Intel Realsense D435i RGB-D相机、MID360 3D LiDAR和IMU，用于机载感知和控制。

HA-R2R测试数据集与排行榜

数据集构成：HA-R2R包含16,844条指令，涵盖90栋建筑扫描中的910个标注人类模型。测试分区包含3,408条指令，分布在18栋保留的建筑中，强调多人路线。数据集分为训练（10,819）、已见验证（778）、未见验证（1,839）和测试（3,408）。
排行榜：为主机提供HA-R2R-DE（离散）和HA-R2R-CE（连续）的排行榜，关注碰撞相关（TCR、CR）和导航（NE、SR）指标。提交可能包括智能体代码或轨迹，提供可复制的服务器端评估，并为以人为中心、动态的VLN研究设定新的基准。

实验

HA-VLN-CE：连续导航

任务定义：HA-VLN-CE通过在逼真的3D环境中填充多个独立移动的人类，扩展了VLN-CE。智能体基于自然语言指令通过连续低级动作进行导航，目标是提高成功率（SR），同时限制碰撞（TCR、CR）。这种设置反映了现实世界条件，旁观者可能会意外改变路径，要求反应性策略和复杂的感官整合。
基线模型：系统地对两个显著的连续导航模型BEVBert和ETPNav进行基准测试，以及HA-VLN-CMA和HA-VLN-VL智能体。每个方法都在两种配置下进行训练/评估：重新训练（仅在HA-VLN任务上训练/评估）和零样本（仅在VLN-CE任务上训练并在HA-VLN任务上评估）。

结果：
- 在HA-VLN任务中整合模型时的显著增益。例如，BEVBert的成功率在已见分割中从0.19提高到0.27，在未见分割中从0.15提高到0.21。
- 相比之下，BEVBert在HA-VLN任务上训练的性能与在VLN-CE任务上训练的相当（成功率：0.54对比0.58）。这种双向评估表明，明确引用动态人群行为可以增强现实世界的导航准备，并确认HA-VLN任务的稳健性。

HA-VLN-DE：离散导航

任务定义：HA-VLN-DE通过在基于视点的环境中放置多个移动个体，扩展了全景VLN。尽管离散控制将可能的移动限制在预定义的位置，但它并不能消除碰撞，因为旁观者可能会占据选定的视点或在狭窄走廊中阻塞关键转换。

结果：尽管Airbert实现了中等的成功率（0.36），但它可能会遭受高达0.83的碰撞率，这表明持续的碰撞风险。忽视人类动态或个人空间的方法往往会在多个旁观者汇聚时失败，特别是在狭窄的路口或门口。因此，仅靠基于视点的导航是不足以实现稳健的社会导航的——即使在离散设置中，适应性碰撞避免策略也是必不可少的。

真实世界实验

实验设置：在四种类型的日常室内环境中（每种有三个实例）——办公室、客厅、走廊和大厅——分别在有无人类存在（无旁观者和2-4名自由移动的志愿者）的条件下评估智能体。这种设置模拟了现实的室内交通模式和部分可观测性。

观察结果：机器人经常暂停或让路以避开迎面而来的行人。在没有旁观者的情况下，它能顺利导航，但在狭窄走廊或人群突然聚集时会出现碰撞。尽管人类存在总是会降低NSR，但HA-VLN-VL始终优于HA-VLN-CMA-Base，显示出对动态运动的更强适应性。此外，在HA-VLN上训练的智能体比VLN-CE的NSR更高（0.18对比0.12），证明了HA-R2R在现实条件下从模拟到现实的增益。然而，部分可观测性和突然的群体形成仍然是一个挑战，特别是在狭窄通道或拥挤的路口。
见解：这些实验证实，经过模拟训练的多人群导航策略确实可以转移到物理机器人上。然而，为了处理室内狭窄环境中的不可预测人类行为，还需要进一步改进碰撞预测和反应控制。

结论与未来工作

结论：
- 该研究提出了HA-VLN框架，将离散和连续导航统一在现实的多人群条件下。通过整合动态人类运动、精细标注和高保真模拟器，HA-R2R数据集强调以人为中心的指令。
- 实验表明，社会意识、多人互动和部分可观测性大大增加了复杂性，降低了先进智能体的性能。然而，该方法在平衡安全性、效率和个人空间方面取得了平衡。真实世界的测试证实了从模拟到现实的转移。
未来工作：
- 尽管该研究在模拟和真实世界环境中都取得了进展，但在处理不可预测的人类行为方面仍有改进空间。
- 未来的工作可以集中在进一步提高智能体对人类行为的预测能力，以及在更复杂和动态的环境中进行测试。此外，还可以探索如何将这种技术应用于其他领域，如服务机器人或自动驾驶汽车。