当前位置: 首页 > news >正文

北航自由指令驱动的多模态导航最新研究:OctoNav:开启通用智能体具身导航

  • 作者: Chen Gao, Liankai Jin, Xingyu Peng, Jiazhao Zhang, Yue Deng, Annan Li, He Wang, Si Liu

  • 单位:北京航空航天大学,新加坡国立大学,北京大学,北京中关村学院

  • 论文标题:OctoNav: Towards Generalist Embodied Navigation

  • 论文链接:https://arxiv.org/pdf/2506.09839

  • 项目主页:https://buaa-colalab.github.io/OctoNav/

  • 代码链接:https://github.com/buaa-colalab/OctoNav-R1

主要贡献

  • 提出了一个大规模基准测试平台 OctoNav-Bench 和一种基于视觉语言动作(VLA)的方法 OctoNav-R1,旨在构建能够遵循自由形式指令的通用导航智能体(generalist navigation agents)。

  • OctoNav-Bench 包含 400 多个 3D 场景和 45k+ 指令-轨迹对,支持大规模训练。这些指令是自由形式的,融合了多种模态(视觉、文本、坐标)和多种能力(如 ObjNav、PointNav、ImgNav 等),并构建了一个包含 10k+ 指令-思考-动作对的 Think-Before-Action Chain-of-Thought(TBA-CoT)数据集,用于捕捉行动背后的思考过程。

  • OctoNav-R1 基于 MLLMs 构建,能够直接从 2D 视觉观测生成低级动作,并通过提出的混合训练范式(Hybrid Training Paradigm, HTP)进行训练,该范式包括三个阶段:Action/TBA-SFT、Nav-GPRO 和在线强化学习(Online RL)。该方法强调“思考后再行动”,通过 TBA-CoT 数据集训练模型,使其具备生成思考过程和行动序列的能力。

  • 模拟环境中展示了 OctoNav-R1 的优越性能,并在真实世界中进行了初步的 sim2real 泛化实验,验证了其在现实场景中的适用性。

研究背景

  • 传统的导航研究被划分为不同的任务,如目标导航(ObjNav)、点导航(PointNav)、图像导航(ImgNav)、实例图像导航(Ins-ImgNav)和视觉语言导航(VLN)。这些任务在设置、输入模态和目标上存在差异,导致数据集和方法都是针对特定任务设计的。

  • 然而,理想中的通用智能体应该能够遵循自由形式的指令,这些指令不仅包含单一任务指令,还可能融合多种模态和多种能力。例如,指令可能要求智能体先导航到某个位置(PointNav),然后找到某个物体(ObjNav),最后通过视觉匹配找到特定场景(ImgNav)。当前的研究方法在处理这种复杂指令时存在局限性。

相关工作

  • 大型语言模型(LLMs)在导航中的应用:近年来,LLMs 和多模态语言模型(MLLMs)被引入导航领域,用于生成导航策略或直接预测低级动作。然而,这些方法大多针对单一任务或特定模态,无法处理自由形式的多模态、多能力指令。

  • 强化学习(RL)在导航中的应用:强化学习被证明是提高模型推理能力的有力策略。例如,DeepSeek-R1 通过奖励机制引导 LLMs 进行推理,而 Vision-R1 和 Video-R1 则构建了多模态的 CoT 数据集。然而,这些研究主要集中在静态图像或受限任务上,尚未探索如何将类似方法应用于机器人导航场景。

OctoNav-Bench

大规模标注

  • OctoNav-Bench 包含 400 多个 3D 场景,涵盖 MP3D、HM3D、Gibson 和 ProcTHOR 等常用数据集。

  • 通过自动化标注流程,生成了 45k+ 指令-轨迹对,支持大规模训练。

自由形式、多模态和多能力指令

指令以自由形式生成,融合了文本、视觉(参考图像)和空间(坐标)描述,并且每个指令可能同时包含多种导航能力,如 ObjNav、PointNav、ImgNav、Ins-ImgNav 和 VLN。

TBA-CoT 数据集

利用 Qwen-VL 和 DeepSeek-R1 构建了 TBA-CoT 数据集,捕捉每个行动背后的思考过程。该数据集可用于监督和增强智能体的推理能力。

连续环境与强化学习支持

与离散或基于图的设置不同,OctoNav-Bench 提供连续的模拟环境,允许智能体在任意位置自由移动并获取视觉观测,支持在线强化学习。

OctoNav-R1

架构设计

OctoNav-R1 基于 LLaMA-VID 构建,能够接收多模态指令并生成低级动作。模型架构包括视觉编码器、语言编码器、查询生成器等模块,通过交叉注意力和查询投影器将视觉和语言信息融合到 LLM 的嵌入空间中。

混合训练范式(HTP)

  • Action/TBA-SFT:通过指令-轨迹对进行监督微调,使模型能够遵循指令执行动作。同时,利用 TBA-CoT 数据集进行 TBA-SFT,训练模型在行动前进行思考。

  • Nav-GPRO:通过组相对策略优化(GRPO)进一步增强模型的思考能力。该阶段通过定制化的奖励函数和提示模板,鼓励模型生成更高质量的思考过程。

  • 在线强化学习:在模拟环境中进行在线强化学习,使模型能够通过试错和主动学习来优化导航策略。

思考能力

OctoNav-R1 强调“思考后再行动”,通过 TBA-CoT 数据集训练模型生成思考过程和行动序列,使其具备更强的推理能力。

实验

实验设置

在 Habitat 模拟器上进行实验,测试集包含 400 多个未在训练集中出现的场景。使用成功率达到(SR)、路径长度加权成功率(SPL)和最终目标成功率(OSR)等指标进行评估。

与其他方法的比较

OctoNav-R1 在所有能力上均优于先前的方法,例如在 ImgNav 上的 SR 为 30.24%,在 VLN 上的 SR 为 49.18%,而其他方法如 Uni-NaVid、NavGPT-2 等在这些任务上的表现较低。

消融研究

  • Action-SFT:通过指令-轨迹对训练后,模型在多种能力上的表现得到提升,但 VLN 能力略有下降。

  • TBA-SFT:引入思考过程后,模型的整体性能显著提高,尤其在 PointNav 和 ObjNav 上的提升更为明显。

  • Nav-GPRO:进一步增强了模型的思考能力,提升了 VLN 任务的性能。

  • 在线强化学习:通过在线 RL,模型在 ImgNav 和 VLN 任务上的表现进一步提升,同时整体路径效率也有所提高。

  • 思考频率:实验表明,思考频率对性能的影响不敏感,但“何时思考”和“在何处思考”仍然是一个有价值的研究方向。

结论与未来工作

  • 结论
    • 该研究通过构建 OctoNav-Bench 和 OctoNav-R1,展示了在自由形式、多模态和多能力指令下的通用导航智能体的潜力。

    • OctoNav-R1 在模拟环境中表现出色,并在真实世界中展示了初步的 sim2real 泛化能力。

  • 未来工作
    • 未来的工作可以探索更复杂的思考机制,例如慢思考与快思考的协作、场景感知的自适应思考等,以进一步提高模型的推理能力和泛化能力。

    • 此外,还可以研究如何减少视觉语言模型(VLMs)生成的幻觉,以提高导航性能。

http://www.xdnf.cn/news/1029691.html

相关文章:

  • SageAttention2原理和计算过程
  • 开机不用输入密码,修改注册表
  • 【设计模式】UML类图与工厂模式
  • C++中 using 命名别名和命名别名模板的用法
  • 寻找区域中的面积和中心点
  • ChatNT-用于DNA、RNA和蛋白质任务的多模态对话代理-文献精读143
  • P3740 [HAOI2014] 贴海报 题解
  • AUTOSAR图解==>AUTOSAR_TPS_SafetyExtensions
  • xss注入遇到转义,html编码绕过了解一哈
  • frp搭建踩坑....
  • 2025软件测试面试题汇总(接口测试篇)
  • 鸿蒙的@State
  • 跳出多重循环
  • Power BI Streaming dataset - 模拟监测水库的水位情况
  • 【2025 CVPR-Backbone】Building Vision Models upon Heat Conduction
  • 57、原生组件注入-【源码分析】DispatcherServlet注入原理
  • Windows系统 整个D盘均无法新建文件夹,D盘权限无法直接添加
  • 认识LinkedHashMap
  • catelen数到二叉树节点的联想
  • C语言:字符函数
  • 高低温介电温谱测量系统在实际应用中有哪些具体的挑战?
  • 体系结构论文(八十六):The Dark Side ofComputing: SilentData Corruptions
  • 爱玛乐维CA510至臻版发布,品质跃迁塑造休三天花板
  • 【论文写作参考文献地址】
  • SSH远程连接到Windows服务器
  • 【树合集】
  • 纯免费的零基础建站教程
  • 从Seq2Seq到QKV:深度解析注意力机制的核心逻辑
  • Python|GIF 解析与构建(6):手搓 tk 录制工具
  • 【互联网基础】互联网公司机房怎么设计