当前位置: 首页 > ds >正文

新疆大学具身导航新范式!DOPE:基于双重对象感知增强网络的视觉语言导航

  • 作者: Yinfeng Yu, Dongsheng Yang

  • 单位:新疆大学计算机科学与技术学院

  • 论文标题:DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation

  • 论文链接:https://arxiv.org/pdf/2505.00743

主要贡献

  • 提出了一个双重对象感知增强网络(DOPE),用于提升视觉语言导航(VLN)任务中的语言理解能力和多模态对象关系建模能力。

  • 设计了文本语义提取(TSE)和文本对象感知增强(TOPA)模块,通过细粒度的语言处理增强指令中关键信息的利用。

  • 引入了图像对象感知增强(IOPA)模块,利用跨模态编码器深入挖掘文本和视觉信息之间的对象关系,提升导航决策的准确性和鲁棒性。

  • R2R和REVERIE数据集上进行了广泛的实验验证,结果表明DOPE在多个指标上优于现有方法。

研究背景

  • 视觉语言导航(VLN)任务要求智能体根据自然语言指令在陌生环境中导航。

  • 该任务的核心挑战在于如何有效地整合语言指令和视觉信息,以做出准确的导航决策。尽管近年来在该领域取得了显著进展,但仍存在以下两个主要问题:
    • 现有方法直接将完整的语言指令输入到多层Transformer网络中,未能充分利用指令中的细节信息,限制了智能体对语言的理解能力。

    • 当前方法在建模不同模态间对象关系时存在不足,未能有效利用对象间的潜在线索,影响了导航决策的准确性和鲁棒性。

研究方法

本文提出的DOPE网络由三个关键模块组成:文本语义提取(TSE)、文本对象感知增强(TOPA)和图像对象感知增强(IOPA)。

文本语义提取(TSE)

  • 通过预训练的DistilBERT分词器和spaCy语言模型对自然语言指令进行分词和词性标注。

  • 提取指令中的动作词和目标对象名词,生成对象短语和动作短语,并将这些短语嵌入到768维向量空间中。

  • 通过位置嵌入保留单词的序列信息。

文本对象感知增强(TOPA)

  • 将动作嵌入和对象嵌入与原始指令嵌入进行拼接。

  • 使用预训练的BERT模型对指令中的单词进行编码,获取上下文语言特征。

  • 引入多头注意力机制(MHA),更新上下文特征与对象短语和动作短语之间的关系,增强语言理解能力。

  • 使用门控结构动态平衡原始特征和增强特征的比例。

图像对象感知增强(IOPA)

  • 使用CLIP模型提取全景图像和对象的特征。

  • 通过Transformer架构建模图像和对象之间的空间关系。

  • 引入两种位置嵌入:表示当前节点相对于起始节点的位置,以及邻近节点相对于当前节点的位置。

  • 使用LXMERT模型作为跨模态编码器,建模图像对象特征和语言对象特征之间的关系,增强图像对象感知能力。

动态融合策略

  • 在动作选择过程中,结合全局动作空间导航分数和局部动作分数,通过加权融合获得最终的动作预测概率。

实验

  • 数据集:使用R2R和REVERIE数据集进行实验。R2R包含90个场景和21,567条导航指令;REVERIE包含21,702条描述目标位置的指令。

  • 评估指标:在R2R数据集上使用导航误差(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL);在REVERIE数据集上额外使用远程目标定位成功率(RGS)和路径长度加权RGS(RGSPL)。

  • 实验结果
    • 在R2R数据集上,DOPE在测试未见集上取得了最佳性能,与基线DUET相比,NE降低了0.59,OSR、SR和SPL分别提高了5%、5%和4%。

    • 在REVERIE数据集上,DOPE在所有指标上均优于现有方法,与ACK相比,OSR、SR、SPL、RGS和RGSPL分别提高了4.09%、4.41%、3.98%、3.07%和2.28%。

  • 消融实验
    • 单独使用IOPA或TOPA模块时,模型性能均优于基线模型;同时使用两个模块时,性能提升更为显著。

    • 在IOPA和TOPA模块中引入对象感知增强(OPE)模块后,模型性能进一步提升,表明OPE在增强对象感知方面发挥了重要作用。

结论与未来工作

  • 结论
    • DOPE通过增强语言理解和视觉感知能力,在VLN任务中取得了优于现有方法的性能。

    • 通过TSE、TOPA和IOPA模块的协同作用,模型能够更有效地整合语言和视觉信息,提升导航决策的准确性和鲁棒性。

  • 未来工作
    • 可以进一步探索如何更好地建模跨模态对象关系,以及如何在更大规模的数据集上验证模型的泛化能力。

    • 此外,结合其他辅助任务(如目标检测、语义分割)可能会进一步提升模型的性能。

http://www.xdnf.cn/news/13904.html

相关文章:

  • golang -- map实现原理
  • 单片机队列功能模块的实战和应用
  • Elasticsearch的数据同步
  • 在线机考|2025年华为暑期实习春招秋招编程题(最新)——第2题_网络整改
  • 基于mapreduce的气候分析系统
  • Dify实战案例:AI邮件批量发送器!
  • Unit 3 Q-Learning 简介
  • 06-Python流程控制
  • [论文阅读] 人工智能 | ComfyUI-R1: Exploring Reasoning Models for Workflow Generation
  • JDBC接口开发指南
  • kali系统 windows Linux靶机入侵演练
  • 《Qt5.14.1与Mingw C++:打造可发布程序的技术之旅》
  • 实时监控、秒级决策:镜舟科技如何重塑融资融券业务数据处理模式
  • @SchedulerLock处理Spring Task在分布式环境下的重复执行问题
  • Transformer模型详解
  • leetcode 169. 多数元素
  • 数据结构-为什么双指针法可以用来解决环形链表?-使用O(1)的空间复杂度去解决环形链表的思路
  • React 基础状态管理方案
  • 基于Orange Pi Zero3的音频管理系统搭建与远程访问实现
  • ⭐ Unity 实现屏幕涟漪效果:自动生成 \ 点击交互生成涟漪
  • F5深化与Red Hat战略合作 ,赋能企业AI规模化安全部署
  • 开源综合性网络安全检测和运维工具-TscanClient
  • pikachu靶场通关笔记26 SQL注入09-时间盲注(base on time)
  • Python打卡训练营-Day29-复习日:类的装饰器
  • dify的知识库的父子分段和通用分段的对比
  • { C++ } —— string类的使用
  • 1年从零通过CISSP!
  • Day52 Python打卡训练营
  • LaViDa:基于扩散模型的多模态大模型,速度超越next-token范式
  • 海思网卡框架介绍