当前位置: 首页 > ops >正文

【机器人】REGNav 具身导航 | 跨房间引导 | 图像目标导航 AAAI 2025

REGNav 突破跨房间导航瓶颈,让智能体像人一样推理空间关系;

通过 “先学房间风格再学导航决策” 的分层思路,解决跨房间导航的视觉关联难题。

让机器人学会 "看风格识空间"—— 通过房间的装饰、家具、布局等稳定特征判断位置关系,再结合视觉细节导航。

这种 "先判断大方向,再寻找精确位置" 的思路,让机器人导航更接近人类的自然认知方式,是具身智能领域的进展。

论文地址:REGNav: Room Expert Guided Image-Goal Navigation

代码地址:https://github.com/leeBooMla/REGNav

一、框架思路流程

 REGNav 的框架思路流程,如下图所示:

离线预训练--找房间(左图 a)在线导航(右图 b) 两个阶段拆解,核心是 “先让模型学会‘认房间风格’,再用这种能力指导导航决策”。

  1. 分层决策:先通过 “房间专家” 判断宏观空间关系(是否同房间),再通过视觉特征优化微观路径规划(如同一房间内找目标物体),模仿人类 “先找区域,再找细节” 的导航习惯。
  2. 无监督预训练的价值:避免人工标注房间标签的成本,同时让模型学习环境固有规律(如不同房屋的房间风格差异),提升泛化能力。
  3. 轻量与高效:仅依赖单目 RGB 相机,无需深度传感器 / GPS,硬件部署灵活;预训练的房间专家可复用,降低在线训练成本。

1.1 左图(a):房间专家的离线预训练 —— 无监督学习房间风格

目标:让模型学会从图像中提取房间风格特征,并判断 “两张图像是否来自同一房间”(无需人工标注房间标签)。

A. 数据输入与预处理

  • 无标签数据:从 Gibson 数据集选取室内图像(涵盖不同房间、不同房屋),但没有人工标注的 “房间类别” 标签
  • 数据清洗:用 SAM 模型过滤无效图像(如纯墙面、过暗画面),保留包含房间风格的有效样本。

B. 核心流程:从特征提取到伪标签生成

(1)风格特征提取

通过 风格编码器 Es​(ResNet-50 backbone),将每张图像转化为低维风格特征向量(捕捉房间的装饰、布局、材质等风格信息)。

(2)约束驱动的距离修正

利用环境固有规律(无需人工标注)构建 约束集(Constraints set),修正特征间的距离矩阵 D:

  • Must-link(必须关联):同一位置拍摄的图像→必属同一房间(距离设为小值,如约束值 1)。
  • Cannot-link(不能关联):不同房屋的图像→必属不同房间(距离设为大值,如约束值 - 1)。
  • 其他情况(同房屋不同难度任务):按概率设置约束值(0.5 或 - 0.5)。
  • 修正公式:Refined Distance=D−γ×约束矩阵(γ 是修正强度)。

(3)聚类与伪标签生成

基于修正后的距离矩阵,用 InfoMap 聚类算法 将风格相似的特征聚为一类,生成伪标签(同一聚类内的图像视为 “同房间”,不同聚类视为 “不同房间”)。

B. 双损失训练优化模型

  • 聚类损失 Lcluster​:让同一聚类的风格特征更接近(类似对比学习,拉近同类距离)。
  • 关系预测损失 Lpred​:训练 关系网络 Er​ 直接判断 “两张图像是否同房间”,输入是两张图像的风格特征,输出是二元分类结果(同房间 / 不同房间),与伪标签计算交叉熵损失。
  • 总损失:Ltotal​ = Lcluster ​+ ωLpred​(ω 平衡两个损失的权重),优化 Es​ 和 Er​ 的参数。

1.2 右图(b):融合房间专家的图像目标导航架构(把 "房间知识" 融入导航决策

目标:利用预训练好的 “房间专家”(Es​ 和 Er​ 冻结参数),指导智能体在未知环境中从当前观测 It​ 导航到目标图像 Ig​ 对应的位置。 

A. 输入感知:当前观测与目标图像

智能体通过 RGB 传感器获取 当前视角图像 It​,同时接收 目标图像 Ig​(导航终点的参考图像)。

B. 两大特征流:房间关系 + 视觉细节

(1)房间关系推理(宏观决策)

  • It​ 和 Ig​ 分别输入 风格编码器 Es​(复用预训练的权重,冻结参数,保证风格特征一致),输出两者的风格特征向量
  • 风格特征输入 关系网络 Er​(同样冻结参数),输出 房间关系预测(如 “同房间” 概率 0.8,“不同房间” 概率 0.2),指导智能体判断 “是否需要找房间出口”。

(2)视觉细节提取(微观决策)

  • 将 It​ 和 Ig​ 通道拼接(变成 6 通道图像,同时包含当前和目标的视觉细节),输入 视觉特征提取器 Ev​(ResNet-9,从头训练),提取视觉语义特征 vvis​(捕捉物体位置、视角差异等细节)。

C. 特征融合与导航决策

  • 融合特征:将 “房间关系信息” 与 “视觉特征 vvis​” 拼接,输入 导航策略网络 π(Actor-Critic 架构)。
  • 强化学习训练
    • Actor:输出动作 at​(前进、转向、停止);
    • Critic:评估当前状态的价值(预测未来奖励);
    • 环境反馈:根据动作 at​ 给予奖励 rt​(距离缩减、角度修正、成功奖励等,见前文公式),反向优化策略 π。

2、图像目标导航

图像目标导航(ImageNav)的核心任务是:

  • 让智能体在未知环境中,仅通过一张目标图像 Ig​(拍摄于目标位置)
  • 从随机初始位置 p0​ 出发,通过自身携带的 RGB 传感器实时获取的第一视角图像 It​,自主导航至目标图像对应的精确位置。

 

在每个时间步 t,智能体的决策流程为

  1. 感知:通过 RGB 传感器获取当前环境的观测图像 It​;
  2. 决策:基于当前观测 It​ 和目标图像 Ig​ 的特征,通过训练好的强化学习策略输出动作 at​(包括前进 0.25m、左转 30°、右转 30°、停止);
  3. 反馈:环境根据动作给予奖励 rt​,鼓励智能体以最短路径到达目标。

奖励机制的设计直接影响导航效率,REGNav采用的奖励函数为

  • rd​ 是与目标距离的缩减奖励(距离越近奖励越高);
  • rα​ 是视角角度的修正奖励(视角与目标方向越一致奖励越高);
  • γ 是效率惩罚项(避免无意义徘徊);
  • 当智能体到达目标 1 米范围内(ds​=1m)且视角偏差≤25°(αs​=25∘)时,获得最大成功奖励

3、第一阶段:房间专家(Room Expert)的离线预训练

房间专家的核心目标是:让智能体学会从 RGB 图像中提取房间风格特征,并判断 “两张图像是否来自同一房间”。

这一阶段无需人工标注房间类别,完全通过无监督学习实现。

3.1  数据集收集:聚焦 “风格而非物体” 的图像选取

为确保模型学习房间风格(如装饰、布局、材质)而非物体差异,数据集需满足:

  • 包含同一房间不同角度的图像(物体不同但风格一致);
  • 覆盖不同场景 / 房屋的图像(保证风格泛化性);
  • 过滤无效图像(如传感器过近拍摄的纯墙面 / 纯黑图像)。

最终数据来自 Gibson 室内数据集的训练场景(与导航任务环境一致,避免数据偏差),并通过 SAM(Segment Anything Model)图像分割工具筛选:保留物体掩码数量≥阈值的图像,剔除空白 / 无效样本,确保输入图像包含有效房间风格信息。

3.2  无监督学习:基于约束规则的房间关系推理

由于缺乏人工标注的 “房间类别” 标签,REGNav 设计了基于环境固有规律的 “必须关联(must-link)” 和 “不能关联(cannot-link)” 约束,自动生成训练标签:

  • 约束规则(用于构建距离修正矩阵 M):

    1. 若两张图像来自不同房屋 → 必属不同房间(cannot-link),设 Mi,j​=−1;
    2. 若两张图像拍摄于同一位置→ 必属同一房间(must-link),设 Mi,j​=1;
    3. 若同一场景且任务难度为 “简单”(距离近)→ 可能同一房间,设 Mi,j​=0.5;
    4. 若同一场景且任务难度为 “困难”(距离远)→ 可能不同房间,设 Mi,j​=−0.5。
  • 模型训练流程

    1. 特征提取:采用预训练的 ResNet-50 作为风格编码器 Es​,提取所有图像的风格特征向量;
    2. 距离修正:通过约束矩阵 M 优化特征间的距离矩阵 D;
    3. 聚类与伪标签生成:基于修正后的距离矩阵,用 InfoMap 聚类算法将风格相似的特征聚为一类,生成伪标签;
    4. 双损失优化:
      • 聚类损失 Lcluster​:让同类风格特征更接近;
      • 关系损失 Lpred​:训练关系网络 Er​ 判断 “两张图像是否同房间”,采用交叉熵损失;
      • 总损失:Ltotal​ = Lcluster ​+ ωLpred​(ω 为损失平衡参数)。

4、第二阶段:导航策略学习 —— 融合房间知识的决策优化

在预训练好房间专家后,REGNav 冻结其参数,重点训练视觉编码器和导航策略,核心是将房间关系知识高效融入导航决策,设计了两种融合方案。

4.1  视觉特征提取:目标与观测的联合编码

视觉特征提取器以 “观测图像 It​ 与目标图像 Ig​ 的通道拼接” 为输入(形成 6 通道图像),

通过视觉编码器 Ev​ 提取语义特征,公式为:

其中 ⊕ 表示通道维度拼接,确保模型同时捕获观测与目标的细节关联。

4.2  两种融合方式:房间知识如何指导导航? 

隐式融合:直接将视觉特征与房间风格嵌入融合,让智能体自主推断空间关系。

融合特征为房间风格编码器输出的观测特征 Es​(It​)、目标特征 Es​(Ig​) 与视觉特征 Vvis​ 的拼接,动作决策公式为:

显式融合:通过房间关系网络直接输出 “是否同房间” 的二元关系,作为导航先验。

先通过关系网络计算空间关系:(输出为 2 维向量,表示同房间 / 不同房间的概率)

再将关系特征与视觉特征融合后输入导航策略,公式为:

5、实验验证与效果

数据集选择

  • Gibson:室内导航经典数据集,用于基准测试(模型训练与测试同域,验证基础能力)。

  • Matterport3D(MP3D)、Habitat-Matterport3D(HM3D):场景与 Gibson 差异大,用于跨域泛化测试(验证模型在陌生环境的适应力)。

评估指标

  • SR(Success Rate,成功率):成功到达目标(1 米内,视角偏差≤25°)的任务比例 → 测 “能不能到”。

  • SPL(Success weighted by Path Length,效率成功率):SPL=SR×(实际路径长度 / 最短路径长度​ )→ 同时测 “能不能到” 和 “路径是否高效”(值越高,导航越聪明)。

Gibson 测试集上进行验证:(输入单张图片)

其中,1RGB 表示机器人仅使用前置 RGB 传感器,且观察类型为单幅 RGB 图像。

在 Gibson 数据集的 简单、中等和困难 三个级别上进行评估

  • 4RGB 表示智能体从 4 个 RGB 传感器获取全景图像作为观察类型。
  • 4RGB-D 表示深度图像可以作为附加输入。

在 MP3D 和 HM3D 上进行跨领域评估的比较

  • 所有方法均在 Gibson 上进行训练,并直接在这两个未见过的数据集上进行测试,无需进行网络调整。

对示例场景进行可视化:

  • 起始是绿色位置,蓝色线条表示智能体的轨迹,颜色随步数变化。
  • 灰色区域表示智能体摄像头探索过的区域。
  • 与基线相比,REGNav 规划出了更高效的导航路径。

分享完成~

   相关文章推荐:

UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation-CSDN博客

【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中-CSDN博客

【机器人】复现 ECoT 具身思维链推理-CSDN博客

【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示-CSDN博客

 【机器人】复现 3D-Mem 具身探索和推理 | 3D场景记忆 CVPR 2025 -CSDN博客

【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动_embodied reasoner-CSDN博客

【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统-CSDN博客

【机器人】ForesightNav | 高效探索 动态场景 CVPR2025_pointnav中的指标介绍-CSDN博客

【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图-CSDN博客

【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图-CSDN博客

【机器人】复现 Aether 世界模型 | 几何感知统一 ICCV 2025-CSDN博客

【机器人】Aether 多任务世界模型 | 4D动态重建 | 视频预测 | 视觉规划 -CSDN博客

http://www.xdnf.cn/news/15420.html

相关文章:

  • 【算法-BFS 解决最短路问题】探索BFS在图论中的应用:最短路径问题的高效解法
  • docker停止所有容器和删除所有镜像
  • 【Docker基础】Dockerfile指令速览:高级构建指令详解
  • 闲庭信步使用图像验证平台加速FPGA的开发:第十六课——图像五行缓存的FPGA实现
  • 常见的 Commit 描述 分类及示例
  • 2025-07-15通过边缘线检测图像里的主体有没有出血
  • 2025-07-15 李沐深度学习6——Softmax回归
  • 实测两款效率工具:驾考刷题和证件照处理的免费方案
  • vscode里面怎么配置ssh步骤
  • 算法学习笔记:22.贪心算法之霍夫曼编码 ——从原理到实战,涵盖 LeetCode 与考研 408 例题
  • JavaScript进阶篇——第三章 箭头函数核心
  • 17. 什么是 webSocket ?
  • 面试遇到的问题
  • 项目总体框架(servlet+axios+Mybatis)
  • Qt图形视图框架5-状态机框架
  • 【Python进阶】深度复制——deepcopy
  • 【人工智能】通过 Dify 构建智能助手
  • JavaScript书写基础和基本数据类型
  • 8:从USB摄像头把声音拿出来--ALSA大佬登场!
  • 算法训练营day18 530.二叉搜索树的最小绝对差、501.二叉搜索树中的众数、236. 二叉树的最近公共祖先
  • 迁移学习:知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式
  • 【前端:Typst】--let关键字的用法
  • 排序树与无序树:数据结构中的有序性探秘
  • 自定义类型 - 联合体与枚举(百度笔试题算法优化)
  • 理解Linux文件系统:从物理存储到统一接口
  • vue3 JavaScript 数据累加 reduce
  • 七、深度学习——RNN
  • 编程语言设计目的与侧重点全解析(主流语言深度总结)
  • 游戏框架笔记
  • 【小白量化智能体】应用5:编写通达信股票交易指标及生成QMT自动交易Python策略程序