当前位置：首页 > ds >正文

新疆大学具身导航新范式！DOPE：基于双重对象感知增强网络的视觉语言导航

ds 2025/7/13 10:03:33

作者： Yinfeng Yu, Dongsheng Yang
单位：新疆大学计算机科学与技术学院
论文标题：DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation
论文链接：https://arxiv.org/pdf/2505.00743

主要贡献

提出了一个双重对象感知增强网络（DOPE），用于提升视觉语言导航（VLN）任务中的语言理解能力和多模态对象关系建模能力。
设计了文本语义提取（TSE）和文本对象感知增强（TOPA）模块，通过细粒度的语言处理增强指令中关键信息的利用。
引入了图像对象感知增强（IOPA）模块，利用跨模态编码器深入挖掘文本和视觉信息之间的对象关系，提升导航决策的准确性和鲁棒性。
在R2R和REVERIE数据集上进行了广泛的实验验证，结果表明DOPE在多个指标上优于现有方法。

研究背景

视觉语言导航（VLN）任务要求智能体根据自然语言指令在陌生环境中导航。
该任务的核心挑战在于如何有效地整合语言指令和视觉信息，以做出准确的导航决策。尽管近年来在该领域取得了显著进展，但仍存在以下两个主要问题：
- 现有方法直接将完整的语言指令输入到多层Transformer网络中，未能充分利用指令中的细节信息，限制了智能体对语言的理解能力。
- 当前方法在建模不同模态间对象关系时存在不足，未能有效利用对象间的潜在线索，影响了导航决策的准确性和鲁棒性。

研究方法

本文提出的DOPE网络由三个关键模块组成：文本语义提取（TSE）、文本对象感知增强（TOPA）和图像对象感知增强（IOPA）。

文本语义提取（TSE）

通过预训练的DistilBERT分词器和spaCy语言模型对自然语言指令进行分词和词性标注。
提取指令中的动作词和目标对象名词，生成对象短语和动作短语，并将这些短语嵌入到768维向量空间中。
通过位置嵌入保留单词的序列信息。

文本对象感知增强（TOPA）

将动作嵌入和对象嵌入与原始指令嵌入进行拼接。
使用预训练的BERT模型对指令中的单词进行编码，获取上下文语言特征。
引入多头注意力机制（MHA），更新上下文特征与对象短语和动作短语之间的关系，增强语言理解能力。
使用门控结构动态平衡原始特征和增强特征的比例。

图像对象感知增强（IOPA）

使用CLIP模型提取全景图像和对象的特征。
通过Transformer架构建模图像和对象之间的空间关系。
引入两种位置嵌入：表示当前节点相对于起始节点的位置，以及邻近节点相对于当前节点的位置。
使用LXMERT模型作为跨模态编码器，建模图像对象特征和语言对象特征之间的关系，增强图像对象感知能力。

动态融合策略

在动作选择过程中，结合全局动作空间导航分数和局部动作分数，通过加权融合获得最终的动作预测概率。

实验

数据集：使用R2R和REVERIE数据集进行实验。R2R包含90个场景和21,567条导航指令；REVERIE包含21,702条描述目标位置的指令。
评估指标：在R2R数据集上使用导航误差（NE）、成功率（SR）、Oracle成功率（OSR）和路径长度加权成功率（SPL）；在REVERIE数据集上额外使用远程目标定位成功率（RGS）和路径长度加权RGS（RGSPL）。
实验结果：
- 在R2R数据集上，DOPE在测试未见集上取得了最佳性能，与基线DUET相比，NE降低了0.59，OSR、SR和SPL分别提高了5%、5%和4%。
- 在REVERIE数据集上，DOPE在所有指标上均优于现有方法，与ACK相比，OSR、SR、SPL、RGS和RGSPL分别提高了4.09%、4.41%、3.98%、3.07%和2.28%。

消融实验：
- 单独使用IOPA或TOPA模块时，模型性能均优于基线模型；同时使用两个模块时，性能提升更为显著。
- 在IOPA和TOPA模块中引入对象感知增强（OPE）模块后，模型性能进一步提升，表明OPE在增强对象感知方面发挥了重要作用。

结论与未来工作

结论：
- DOPE通过增强语言理解和视觉感知能力，在VLN任务中取得了优于现有方法的性能。
- 通过TSE、TOPA和IOPA模块的协同作用，模型能够更有效地整合语言和视觉信息，提升导航决策的准确性和鲁棒性。
未来工作：
- 可以进一步探索如何更好地建模跨模态对象关系，以及如何在更大规模的数据集上验证模型的泛化能力。
- 此外，结合其他辅助任务（如目标检测、语义分割）可能会进一步提升模型的性能。

http://www.xdnf.cn/news/13904.html

相关文章：

golang -- map实现原理

单片机队列功能模块的实战和应用

Elasticsearch的数据同步

在线机考|2025年华为暑期实习春招秋招编程题（最新）——第2题_网络整改

基于mapreduce的气候分析系统

Dify实战案例：AI邮件批量发送器！

Unit 3 Q-Learning 简介

06-Python流程控制

[论文阅读] 人工智能 | ComfyUI-R1: Exploring Reasoning Models for Workflow Generation

JDBC接口开发指南

kali系统 windows Linux靶机入侵演练

《Qt5.14.1与Mingw C++：打造可发布程序的技术之旅》

实时监控、秒级决策：镜舟科技如何重塑融资融券业务数据处理模式

@SchedulerLock处理Spring Task在分布式环境下的重复执行问题

Transformer模型详解

leetcode 169. 多数元素

数据结构-为什么双指针法可以用来解决环形链表？-使用O(1)的空间复杂度去解决环形链表的思路

React 基础状态管理方案

基于Orange Pi Zero3的音频管理系统搭建与远程访问实现

⭐ Unity 实现屏幕涟漪效果：自动生成 \ 点击交互生成涟漪

F5深化与Red Hat战略合作，赋能企业AI规模化安全部署

开源综合性网络安全检测和运维工具-TscanClient

pikachu靶场通关笔记26 SQL注入09-时间盲注(base on time)

Python打卡训练营-Day29-复习日：类的装饰器

dify的知识库的父子分段和通用分段的对比

{ C++ } —— string类的使用

1年从零通过CISSP！

Day52 Python打卡训练营

LaViDa：基于扩散模型的多模态大模型，速度超越next-token范式

海思网卡框架介绍