当前位置: 首页 > news >正文

动态环境下的人员感知具身导航!HA-VLN:具备动态多人互动的视觉语言导航基准与排行榜

  • 作者:Yifei Dong1^{1}1, Fengyi Wu1^{1}1, Qi He1^{1}1, Heng Li1^{1}1, Minghan Li2^{2}2, Zebang Cheng1^{1}1, Yuxuan Zhou3^{3}3, Jingdong Sun4^{4}4, Zhi-Qi Cheng1^{1}1, Qi Dai5^{5}5, Alexander G Hauptmann4^{4}4
  • 单位:1^{1}1华盛顿大学,2^{2}2Galbot,3^{3}3曼海姆大学,4^{4}4卡内基梅隆大学,5^{5}5微软研究院
  • 论文标题:HA-VLN: ABenchmark for Human-Aware Navigation in Discrete–Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard
  • 论文链接:https://arxiv.org/pdf/2503.14229
  • 项目主页:https://ha-vln-project.vercel.app/
  • 代码链接:https://github.com/F1y1113/HA-VLN

主要贡献

  • 提出了HA-VLN基准测试,将离散和连续导航范式统一起来,并在明确的社会意识约束下进行。它包括标准化的任务定义、升级的数据集和模拟器、广泛的基准测试、真实世界的机器人测试以及公开的排行榜。
  • 标准化任务与指标:将离散和连续导航在社会意识约束下统一起来,确保目标和评估的一致性。
  • 升级数据与HA-VLN模拟器:在HAPS 1.0的基础上,提出了HAPS 2.0(包含486个SMPL序列),并开发了两个先进的模拟器(HA-VLN-DE和HA-VLN-CE),它们结合了多视角人类标注、双线程渲染和严格的碰撞检查,能够容纳多达910个活跃个体。
  • 全面的基准测试:在R2R-CE的基础上增加了16,844条以人为中心的指令,并在统一的指标下对多个智能体进行基准测试,揭示了多个人类动态和部分可观测性给领先的VLN智能体带来的巨大挑战。
  • 真实世界验证与排行榜:通过物理机器人在拥挤的室内空间中成功导航,有力地证明了从模拟到现实的转移,并提供了一个公共排行榜,用于在多个人类场景中对离散和连续任务进行全面评估。

研究背景

  • 视觉语言导航(VLN)系统:使机器人能够理解多模态指令并在真实或模拟空间中导航。然而,现有的VLN系统大多只关注离散(全景)或连续(自由运动)范式之一,忽略了人类动态和部分可观测性的复杂性,这限制了它们在现实世界中的适用性。
  • 存在的挑战:社会意识未被充分探索,人类参与者常被忽视或简化为静态障碍;指令复杂性未被现有语料库很好地捕捉;静态环境假设占主导,忽视了实时重规划的需求。

人类感知的视觉语言导航任务

任务动机与概述

  • 动机:传统VLN系统大多忽视了人类动态和部分可观测性,而现实世界中的导航场景往往涉及动态的人类活动,如人群移动、个人空间需求等。因此,提出了人类感知的视觉语言导航(HA-VLN)任务,要求智能体在遵循自然语言指令的同时,能够应对动态的人类活动,预测人类运动,尊重个人空间,并调整路径以避免碰撞。
  • 概述:HA-VLN任务要求智能体在动态环境中导航,同时遵循自然语言指令。与标准VLN不同,HA-VLN中的智能体需要考虑人类的动态行为,如“去楼上,那里有人边走边打电话……”,并据此调整路径。

状态与动作空间

  • 状态空间:在每个时间步ttt,智能体的状态st=⟨pt,ot,ΘFOVt⟩s_t = \langle p_t, o_t, \Theta_{FOV}^t \ranglest=pt,ot,ΘFOVt,其中ptp_tpt是智能体的3D位置,oto_tot是其朝向,ΘFOVt\Theta_{FOV}^tΘFOVt是其以自我为中心的视图。在离散环境(DE)中,智能体在预定义的视点之间跳跃,每个视点提供一个RGB观测。在连续环境(CE)中,智能体看到一个90°视场的RGB+D(深度)馈送,并可以进行小增量移动(例如,向前移动0.25米,转动15°)。
  • 动作空间:在两种环境中,动作空间均为A={aforward,aleft,aright,aup,adown,astop}A = \{a_{forward}, a_{left}, a_{right}, a_{up}, a_{down}, a_{stop}\}A={aforward,aleft,aright,aup,adown,astop}

人类感知约束

  • 动态人类模型:人类根据HAPS 2.0中的3D运动轨迹自然移动,这些运动轨迹会实时更新。
  • 个人空间:智能体必须避免过于接近人类(在DE中距离小于3米,在CE中距离小于半径之和)。
  • 以人为中心的指令:语言通常描述人及其活动(例如,“绕过正在打电话的人”),需要文本提示与实时视觉输入之间的一致性。这些详细的人类位置和运动是通过多阶段管道标注的,涉及广泛的标记和验证以确保真实性。

动态与部分可观测性

  • 由于人类可能不可预测地移动,每个时间步是一个部分可观测马尔可夫决策过程(POMDP)。新状态st+1s_{t+1}st+1取决于智能体的动作和同时发生的人类运动(例如,有人让开或从走廊中出现)。
  • 智能体必须推断未观测到的因素——例如,一个人是否会让出空间——并在探索(寻找替代路线)和利用(继续已知路径)之间取得平衡,以高效地到达目标。

挑战与DE-CE协同作用

  • 挑战
    • 社交导航:无碰撞运动,尊重个人空间。
    • 人类对齐指令:语言可能涉及短暂的活动或互动。
    • 自适应重规划:人类可以不可预测地阻塞或解阻通道。
  • DE与CE协同作用:DE允许通过离散视点跳跃快速原型设计,而CE近似于现实世界的动态和运动保真度。通过整合这两种方法,HA-VLN涵盖了从大规模模拟到实际机器人部署的整个范围,显著扩展了社会意识、以人为中心的导航研究。

HA-VLN模拟器

动机与概述

  • 动机:现有的模拟器要么忽视人类行为,要么将人类建模为静态障碍。HA-VLN模拟器通过在离散和连续的3D环境中放置多个动态移动的人类,解决了社会意识导航中的长期挑战。它具有高保真度的运动、多人互动和现实世界的复杂性,如群体聚会、自发运动和个人空间限制。
  • 概述:HA-VLN模拟器基于HAPS 2.0数据集,利用486个运动序列,涵盖了室内和室外活动。它提供了两个互补模块:HA-VLN-CE用于连续导航,HA-VLN-DE用于离散导航。这两个模块共享一个统一的API,提供一致的人类状态查询、动态场景更新和碰撞检查。

HAPS 2.0数据集

  • 运动描述对齐:HAPS 2.0数据集通过两轮人工验证来对齐文本描述和运动数据,消除了HAPS 1.0中超过一半的不准确配对,最终得到172个精确对齐的运动。
  • 多样化区域-运动关系:重新组织区域-运动关联,使同一运动能够适应各种环境,包括室内外场景,从而更真实地反映人类行为,减少环境偏差,提高现实世界适用性。
  • 与HAPS 1.0的对比:HAPS 2.0在运动准确性、环境兼容性、失败案例数量和标注工作量等方面均优于HAPS 1.0。它包含26个不同区域,覆盖90个建筑场景,涵盖486个人类活动。

标注流程:粗粒度到细粒度

粗粒度标注
  • 区域定义与对象列表:定义每个区域的边界坐标和对象列表。
  • 安全距离约束:设置人类与对象之间的最小安全距离为1米,确保布局真实,同时为智能体通行留出空间。
  • 自适应惩罚:适应性地对违反约束的布局(如与墙壁相交或人类重叠)施加惩罚,以阻止不可行的姿势并促进场景几何对齐。
细粒度标注

  • 相机位置与角度:设置九个RGB相机的位置和角度,以提供全面的多视角视图,用于检测人类与周围物体之间的潜在碰撞或对齐问题。
  • 细标注协议:通过六步程序来微调人类的位置和朝向,包括初始视图、多相机观察、垂直碰撞检查、水平平移、侧相机审查和最终输出。
多人类互动与运动丰富

  • 人类在环方法:使用大模型(如ChatGPT-4和LLaMA-3-8B-Instruct)提出合理的多人类场景。每个提示都整合了有关现有人类运动、对象位置和区域上下文的详细信息,引导语言模型生成丰富的多角色互动。
  • 迭代标注工作流:对语言模型产生的候选互动进行四轮手动细化和验证,以纠正不一致之处并确保上下文对齐。
  • 丰富互动的例子:展示了如何通过添加额外的人类来丰富场景,例如在客厅中,两个人坐在沙发上分享爆米花,而第三个人在电视前欢呼。

实时渲染与智能体交互

  • 多线程管道:通过受生产者-消费者原则和Java风格信号启发的多线程管道,将动态人类模型集成到模拟中。智能体可以实时观察和响应人类运动,从而促进适应性导航策略。
  • 系统初始化:加载环境、人类运动数据和对象模板管理器,以高效处理3D模型模板。
  • 信号发送线程(线程1):以固定频率将“刷新”信号放入队列,模拟人类运动的连续更新。
  • 主线程(线程2):在智能体即将行动时,检查队列中的刷新信号,计算当前帧索引,并更新人类模型的位置和朝向。

API设计

  • 离散环境(DE):通过实时导航图跟踪所有智能体和人类的位置,以2D顶视图显示。每个人类的活动都存储为一个元组,包含人类的2D坐标、与智能体的距离、相对朝向和活动状态。
  • 连续环境(CE):API主要关注三个组件:人类活动监控、环境感知和导航支持。实时跟踪和分析人类活动,维护动态场景图,并使用基于A*的规划器计算候选轨迹,同时考虑动态人类和静态障碍物。

HA-VLN智能体

HA-R2R数据集

现有的Room-to-Room in Continuous Environment(R2R-CE)数据集缺乏对人类互动的明确关注。因此,研究者开发了HA-R2R数据集,扩展了R2R-CE,增加了16,844条精心策划的指令,强调社交细微差别,如对话、走廊交叉和近碰撞事件。

  • 通过设计针对大型语言模型(LLM)的目标提示来生成这些丰富的指令,捕捉多样化的现实世界社交场景。
  • 这些指令从静态路径转变为需要智能体解释如“避开在酒吧附近聊天的情侣”或“让出正在穿过走廊的人”的指令。

HA-VLN-VL智能体

基于Recurrent VLNBERT,采用模仿学习方法,强调在复杂设置中仅通过更强的多模态基础就能提升性能。

  • 在每个时间步ttt,智能体更新其隐藏状态sts_tst并预测动作分布patp_a^tpat
  • 使用多层Transformer处理输入,使用专门的状态标记来关注语言和视觉标记。最终动作概率是注意力权重的平均值。

HA-VLN-CMA智能体

基于交叉模态注意力(CMA),在每个时间步融合文本嵌入和视觉特征,通过多头注意力机制产生联合表示,然后通过MLP映射到动作概率。

  • 利用环境Dropout(Envdrop)和数据集聚合(DAgger)来解决部分可观测性和不可预测运动的挑战。
  • Envdrop随机掩盖视觉语言流中的特征,模拟人群或遮挡物体造成的遮挡。
  • DAgger维护智能体状态的重放缓冲区,使智能体能够迭代纠正先前的错误。

真实世界验证与排行榜

真实世界验证与设置

  • 实验设置:在四种室内空间(办公室、客厅、走廊、大厅)中部署训练有素的智能体,每个空间都有2-4名自由移动的志愿者。实验在适度拥挤的条件下进行,但面临在狭窄走廊或人群突然聚集时的挑战,突出了在部分可观测性下稳健重新规划的需求。
  • 硬件平台:使用Unitree Go2-EDU四足机器人,配备Intel Realsense D435i RGB-D相机、MID360 3D LiDAR和IMU,用于机载感知和控制。

HA-R2R测试数据集与排行榜

  • 数据集构成:HA-R2R包含16,844条指令,涵盖90栋建筑扫描中的910个标注人类模型。测试分区包含3,408条指令,分布在18栋保留的建筑中,强调多人路线。数据集分为训练(10,819)、已见验证(778)、未见验证(1,839)和测试(3,408)。
  • 排行榜:为主机提供HA-R2R-DE(离散)和HA-R2R-CE(连续)的排行榜,关注碰撞相关(TCR、CR)和导航(NE、SR)指标。提交可能包括智能体代码或轨迹,提供可复制的服务器端评估,并为以人为中心、动态的VLN研究设定新的基准。

实验

HA-VLN-CE:连续导航

  • 任务定义:HA-VLN-CE通过在逼真的3D环境中填充多个独立移动的人类,扩展了VLN-CE。智能体基于自然语言指令通过连续低级动作进行导航,目标是提高成功率(SR),同时限制碰撞(TCR、CR)。这种设置反映了现实世界条件,旁观者可能会意外改变路径,要求反应性策略和复杂的感官整合。
  • 基线模型:系统地对两个显著的连续导航模型BEVBert和ETPNav进行基准测试,以及HA-VLN-CMA和HA-VLN-VL智能体。每个方法都在两种配置下进行训练/评估:重新训练(仅在HA-VLN任务上训练/评估)和零样本(仅在VLN-CE任务上训练并在HA-VLN任务上评估)。

  • 结果
    • 在HA-VLN任务中整合模型时的显著增益。例如,BEVBert的成功率在已见分割中从0.19提高到0.27,在未见分割中从0.15提高到0.21。
    • 相比之下,BEVBert在HA-VLN任务上训练的性能与在VLN-CE任务上训练的相当(成功率:0.54对比0.58)。这种双向评估表明,明确引用动态人群行为可以增强现实世界的导航准备,并确认HA-VLN任务的稳健性。

HA-VLN-DE:离散导航

  • 任务定义:HA-VLN-DE通过在基于视点的环境中放置多个移动个体,扩展了全景VLN。尽管离散控制将可能的移动限制在预定义的位置,但它并不能消除碰撞,因为旁观者可能会占据选定的视点或在狭窄走廊中阻塞关键转换。

  • 结果:尽管Airbert实现了中等的成功率(0.36),但它可能会遭受高达0.83的碰撞率,这表明持续的碰撞风险。忽视人类动态或个人空间的方法往往会在多个旁观者汇聚时失败,特别是在狭窄的路口或门口。因此,仅靠基于视点的导航是不足以实现稳健的社会导航的——即使在离散设置中,适应性碰撞避免策略也是必不可少的。

真实世界实验

  • 实验设置:在四种类型的日常室内环境中(每种有三个实例)——办公室、客厅、走廊和大厅——分别在有无人类存在(无旁观者和2-4名自由移动的志愿者)的条件下评估智能体。这种设置模拟了现实的室内交通模式和部分可观测性。

  • 观察结果:机器人经常暂停或让路以避开迎面而来的行人。在没有旁观者的情况下,它能顺利导航,但在狭窄走廊或人群突然聚集时会出现碰撞。尽管人类存在总是会降低NSR,但HA-VLN-VL始终优于HA-VLN-CMA-Base,显示出对动态运动的更强适应性。此外,在HA-VLN上训练的智能体比VLN-CE的NSR更高(0.18对比0.12),证明了HA-R2R在现实条件下从模拟到现实的增益。然而,部分可观测性和突然的群体形成仍然是一个挑战,特别是在狭窄通道或拥挤的路口。
  • 见解:这些实验证实,经过模拟训练的多人群导航策略确实可以转移到物理机器人上。然而,为了处理室内狭窄环境中的不可预测人类行为,还需要进一步改进碰撞预测和反应控制。

结论与未来工作

  • 结论
    • 该研究提出了HA-VLN框架,将离散和连续导航统一在现实的多人群条件下。通过整合动态人类运动、精细标注和高保真模拟器,HA-R2R数据集强调以人为中心的指令。
    • 实验表明,社会意识、多人互动和部分可观测性大大增加了复杂性,降低了先进智能体的性能。然而,该方法在平衡安全性、效率和个人空间方面取得了平衡。真实世界的测试证实了从模拟到现实的转移。
  • 未来工作
    • 尽管该研究在模拟和真实世界环境中都取得了进展,但在处理不可预测的人类行为方面仍有改进空间。
    • 未来的工作可以集中在进一步提高智能体对人类行为的预测能力,以及在更复杂和动态的环境中进行测试。此外,还可以探索如何将这种技术应用于其他领域,如服务机器人或自动驾驶汽车。

http://www.xdnf.cn/news/1393489.html

相关文章:

  • gpu与cpu各厂商的优劣
  • 吱吱企业通讯软件可私有化部署,构建安全可控的通讯办公平台
  • [TG开发]与Reids集成
  • 深度拆解 OpenHarmony 位置服务子系统:从 GNSS 到分布式协同定位的全链路实战
  • LeetCode - 1. 两数之和
  • 华硕主板 BIOS 提示——GPT header corruption has been detected
  • 【树论】树上启发式合并
  • RV1126的OSD模块讲解
  • 单节锂电池,升压至12V/2.5A的芯片选型指南(附FP5207X 与 FP7208参数表)
  • Zabbix-获取客户端的SNMP数据
  • CMake⼯程指南-2
  • Linux系统——EXT2 文件系统
  • 记录:HSD部署(未完成)
  • 基于 Vue + Interact.js 实现可拖拽缩放柜子设计器
  • CosyVoice win10启用记
  • 《Shell 大道:筑基篇(下)—— 流控筑根基,数据任驱驰》
  • 【K8s】整体认识K8s之与集群外部访问--service
  • 【Doris入门】Doris表模型完全指南:明细、聚合、主键模型的选择与优化技巧
  • layout版图设计学习笔记4_Virtuoso基础介绍
  • Altium Designer 22使用笔记(10)---PCB铺铜相关操作
  • 如何解决网关断网后时间不再统计的问题?无RTC子设备如何打通主网关的时间同步功能?
  • Unity EventTrigger 动态添加事件
  • 电商数据的获取方式:API、爬虫、第三方服务及更多
  • 如何使用 Graylog 连接 Easysearch
  • Nginx原理及九大常见故障解决方法
  • idea2025.1.5安装+pj
  • MemoryVLA:让机器人拥有“记忆“的视觉-语言-动作模型
  • 3021. Alice 和 Bob 玩鲜花游戏
  • JSTL!
  • 期权合约作废了怎么处理?