当前位置：首页 > news >正文

ICCV-2025 | 同济上海AILab跨越虚拟与现实的具身导航！VLN-PE：重审视觉语言导航中的具身差距

news 2025/8/11 13:13:08

作者： Liuyi Wang $^{1,2}$ , Xinyuan Xia $^{2,3}$ , Hui Zhao $^{2}$ , Hanqing Wang $^{2}$ , Tai Wang $^{2}$ , Yilun Chen $^{2}$ , Chengju Liu $^{1,4}$ , Qijun Chen $^{1,4}$ , Jiangmiao Pang $^{2}$ ,
单位： $^{1}$ 同济大学， $^{2}$ 上海人工智能实验室， $^{3}$ 上海交通大学， $^{4}$ 自主智能无人系统国家重点实验室
论文标题：Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities
论文链接：https://arxiv.org/pdf/2507.13019
项目主页：https://crystalsixone.github.io/vln_pe.github.io/
代码链接：https://github.com/InternRobotics/InternNav

主要贡献

提出了VLN-PE，这是一个支持人形、四足和轮式机器人的物理级VLN（视觉语言导航）平台，填补了现有研究中从仿真到物理部署的空白。
系统性地评估了几种第一视角的VLN方法在物理机器人环境中的表现，包括单步离散动作预测的分类模型、密集轨迹点预测的扩散模型以及基于地图的无需训练的大语言模型（LLM）与路径规划的结合。
揭示了由于机器人观测空间有限、环境光照变化以及碰撞和跌倒等物理挑战导致的性能显著下降问题，同时也暴露了在复杂环境中腿部机器人运动的限制。
VLN-PE具有高度可扩展性，能够无缝集成新的场景，扩展了VLN研究和评估的范围，为提高跨实体的适应性提供了新途径。

研究背景

VLN是具身人工智能中的一个重要任务，要求智能体根据自然语言指令在复杂环境中导航。最初依赖于MP3D模拟器，仅支持基于预定义图节点的导航。
后来VLN-CE引入了连续导航，但现有的VLN基准测试大多针对理想的轮式或点基智能体设计，忽略了机器人自身的物理具身性，且测试条件过于理想化，常常忽视了视角变化、跌倒、死锁和运动误差等关键物理问题。
随着机器人运动算法的快速发展，尤其是人形和四足机器人的强化学习方法，迫切需要一个集成VLN基准测试平台，支持跨实体数据收集、训练和评估，但现有研究缺乏将真实机器人动力学、精确运动控制和可扩展训练集成在一起的全栈平台。

VLN-PE平台与基准

平台架构

VLN-PE（Vision-and-Language Navigation - Physical Embodiment）是一个物理级的VLN平台，基于GRUTopia构建，支持多种机器人类型（人形、四足和轮式机器人）。该平台的核心特点包括：

物理仿真：采用NVIDIA Isaac Sim的强大物理仿真能力，支持多种机器人模型，能够模拟真实的运动和交互。
环境扩展性：支持无缝集成多种环境，包括高质量的合成场景和3D高斯绘制（3DGS）场景，扩展了VLN研究的范围。
多模态感知：支持RGB和深度传感器，符合真实机器人配置。

场景构建

MP3D场景：将90个Matterport3D场景转换为USD格式，并修复了由于重建错误导致的地面缺口，以适应腿部机器人的运动。
合成场景：引入了10个高质量的合成家庭场景（GRScenes），提供更高的视觉保真度和物理真实性。
3DGS场景：使用3D高斯绘制技术重建的实验室环境，提供高度逼真的感知体验。

数据集构建

R2R数据集：使用R2R数据集进行实验，过滤掉包含楼梯的episode，以适应当前的机器人运动控制器。
新数据集：为新引入的场景采样轨迹并生成VLN风格的指令，创建了GRU-VLN10和3DGS-Lab-VLN两个评估数据集。

评估指标

标准指标：包括轨迹长度（TL）、导航误差（NE）、成功率（SR）、Oracle成功率（OS）和路径效率加权成功率（SPL）。
新增指标：引入摔倒率（FR）和卡住率（StR），以反映物理环境下的性能。

运动控制器

RL控制器：基于强化学习的运动控制器，支持人形机器人、四足机器人和轮式机器人。这些控制器可以直接应用于真实机器人实验，确保虚拟和物理部署之间的一致性。

基线模型

单步离散动作分类方法

Seq2Seq：由指令编码器、观察编码器和GRU单元组成，预测下一步动作。
- 指令编码器：使用LSTM对GloVe嵌入的指令进行编码。
- 观察编码器：使用ResNet50对RGB和深度图像进行编码。
- 动作预测：通过GRU单元融合视觉和语言特征，预测下一步动作。
CMA：在Seq2Seq基础上引入交叉模态注意力机制，通过两个GRU单元分别处理视觉和语言特征，增强模型对指令的理解。
NaVid：基于视频的多模态大语言模型（MLLM），使用LLaMa-VID架构，能够处理连续的RGB输入并输出导航动作。

多步连续预测方法

RDP（Recurrent Diffusion Policy）：首次将扩散模型应用于VLN任务，能够生成密集的轨迹点。
- 输入处理：使用LongCLIP对RGB和指令进行编码，使用ResNet50对深度图像进行编码。
- 交叉模态注意力：通过多头注意力机制对视觉和语言特征进行对齐。
- 扩散解码器：基于Transformer结构，预测未来多步的相对位移和偏航角。
- 停止预测：引入额外的MLP预测头，用于预测停止进度，辅助模型做出更精确的停止决策。

基于地图的非训练方法

VLMaps：利用大语言模型（LLM）解析自然语言指令为子目标，并在语义地图上进行定位和导航。
- 语义地图构建：使用LSeg将3D点云映射到语义嵌入空间。
- 指令解析：LLM将指令解析为可执行的Python代码，定义导航逻辑。
- 探索策略：引入VLFM（Vision-Language Frontier Maps）进行探索，当目标不可见时，机器人会移动到边界并评估下一个地标。

实验

实验设置

实验目标：验证现有VLN方法在物理环境中的表现，分析物理控制器对性能的影响，探索跨实体数据对模型适应性的作用，以及研究不同光照条件对模型准确性的影响。
实验平台：基于VLN-PE平台，使用人形机器人（Unitree H1）、四足机器人（Unitree Aliengo）和轮式机器人（Jetbot）进行实验。
实验数据集：主要使用R2R数据集，并引入了GRU-VLN10和3DGS-Lab-VLN两个新数据集，以评估模型在非MP3D风格环境中的泛化能力。
评估指标：采用标准的VLN评估指标（如成功率SR、路径效率SPL等），并新增了摔倒率FR和卡住率StR两个指标，以反映物理环境下的性能。

实验结果与分析

VLN-CE模型在VLN-PE中的表现

零样本迁移性能：直接从VLN-CE迁移到VLN-PE的模型性能显著下降。例如，Seq2Seq-Full、CMA-Full和NaVid的成功率分别下降了10%、16%和18%。这表明现有模型在物理环境中的适应性较差。

领域内训练与微调：使用VLN-PE中的数据进行训练或微调可以显著提升性能。例如，CMA+（微调后的CMA）在验证集上的成功率SR达到了28.72%，超过了NaVid的零样本性能（21.58%）。这表明现有VLN模型倾向于过拟合到特定的仿真平台，而在新环境中需要多样化的数据来提升泛化能力。

物理控制器的影响

控制器一致性：当训练和评估时使用的物理控制器保持一致时，模型性能最高。例如，在人形机器人上，使用相同的控制器进行数据收集和评估时，CMA的成功率SR为21.12%，而控制器不一致时，成功率下降到18.54%。
控制器数据的重要性：使用带有控制器的数据进行训练可以减少机器人摔倒和卡住的情况，提升整体稳定性。这表明对于腿部机器人，基于控制器的数据收集流程是实现可靠导航的关键。

跨实体数据的影响

模型对运动动态和视角高度的敏感性：不同机器人类型的运动动态和视角高度对模型性能有显著影响。例如，人形机器人的“flash”设置（平滑运动）在VLN-PE上表现最好，而四足机器人由于视角高度较低，导致模型几乎失败。
跨实体训练的优势：使用多种机器人类型的数据进行训练可以显著提升模型的整体性能，并实现跨实体的泛化。例如，使用人形、四足和轮式机器人数据共同训练的模型在验证集上的成功率SR和路径效率SPL均优于单一机器人类型训练的模型。