当前位置：首页 > news >正文

ODYSSEY：开放世界四足机器人的探索与操控，助力长范围任务

news 2025/8/23 6:08:14

25年8月来自浙江大学、浙江工业大学和香港中文大学（深圳）的论文“ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks”。

语言引导的长范围机器人移动操作，长期以来一直是具身语义推理、泛化操作和自适应运动领域的一大挑战。三个基本限制阻碍了进展：首先，尽管大语言模型已显示出通过学习语义先验来增强空间推理和任务规划的潜力，但现有的实现仍然局限于桌面场景，未能解决移动平台感知受限和驱动范围有限的特点。其次，当前的操作策略在面对开放世界环境中多样化物体配置时表现出不足的泛化能力。第三，虽然对于实际部署至关重要，但在非结构化环境中保持高平台机动性和精确的末端执行器控制的双重要求仍然研究不足。在这项工作中，ODYSSEY，是一个用于配备机械手敏捷四足机器人的统一移动操作框架，它将高级任务规划与低级全身控制无缝集成。为了应对语言条件任务中自我中心感知的挑战，引入一个由视觉-语言模型驱动的分层规划器，实现了长范围指令分解和精确动作执行。在控制层面，全身策略实现了在复杂地形中对运动和操控的稳健协调。进一步提出第一个全面的长范围移动操控基准，评估了各种室内和室外场景。通过成功的模拟-到-现实迁移，展示该系统在现实世界部署中的泛化能力和稳健性，凸显腿式操控器在非结构化环境中的实用性。

开放世界移动操控技术将移动性、操控和实时感知紧密结合，使机器人能够在动态非结构化环境中自主导航和交互。与传统的导航和操控分离方法不同，这种统一的方法能够释放主动感知等能力，而主动感知对于现实世界的任务至关重要。例如，机器人在伸手抓取物体时可能会巧妙地调整自身位置，以获得更佳的抓取位置。这种自适应行为在静态感知或顺序规划失效的复杂环境中自然而然地出现。

先前的研究已经为动态环境中的导航（Grandia，2023；Zhuang，2023；Liu，2024b）和受控环境中的操控（Kim，2024；Brohan，2022；Cheang，2024）取得稳健的解决方案。虽然近期的研究（Pan 2025a；Fu, Cheng & Pathak 2023；Liu 2024a；Zhang 2025；Wang 2024b）已经开发出全身控制框架，但由于环境假设和评估过于简化，且仅限于短范围任务，它们在开放世界场景中面临着可扩展性的限制。

ODYSSEY，是一个基于强化学习的全身控制系统，它通过集成的视觉-语言框架，将稳健的四足机器人运动与精确的操控相结合，如图所示。该方法在非分布式条件下实现了最佳的控制精度，同时显著扩展了操作能力。与先前的研究不同，其展示了该系统在各种具有挑战性地形上的泛化能力，从而能够在现实世界中部署。

请添加图片描述

近期研究（Qi et al. 2025; Pan et al. 2025b）表明，大语言模型能够通过其空间理解能力显著提升机器人任务规划和泛化操控能力。本文将大语言模型的能力扩展到全身导航和操控任务。具体而言，其方法将任务执行置于两个层面：基于语义实例图的任务级规划，以及通过几何约束姿态估计的细粒度动作引导。

此外，为了弥补关键的评估差距，提出首个用于评估长范围移动操控的综合基准，涵盖了室内/室外环境中的八种不同日常任务，并包含数百种物体配置。该基准能够全面评估具身推理、任务规划、导航和操控能力，同时结合标准化的 Arnold 框架进行精准操控评估。
通过大量实验，系统展示强大的 sim2real 传输能力，展示卓越的泛化能力，其中控制和规划模块在不同的现实场景中保持一致的性能。

长范围任务规划器

为了弥补先前研究在基于语义推理的导航与细粒度、可泛化操作之间复杂依赖关系建模方面留下的空白，本文专门设计分层框架，以确保两个组件的可靠性，同时增强它们之间的相互依赖关系，以实现连贯的长范围任务执行。

地图-觉察任务级规划：为了支持基于自我中心观测的长范围任务规划，首先构建一个全局规划器，该规划器集成了一个轻量级多模态感知模块作为插件组件。具体而言，融合板载 RGB 和 LiDAR 数据流，形成场景的统一空间语义表示。利用一套预训练的基础模型，映射一个实例图，该实例图对目标几何和语义进行编码，用于符号任务推理。

如图所示，基于实例级语义图，GPT-4.1（Achiam，2023）用于将无模板自然语言指令分解为一系列来自预定义集合的原子动作：导航、拾取、放置和推/拉/拖。每个动作都配有一个语言描述，用于跟踪任务进度并为局部规划提供指导。对于涉及空间位移（导航、拖拽）的动作，模型会进一步输出一个粗略的目标航点来指导规划。

请添加图片描述

其将该目标投影到通过在线 SLAM 技术从累积的 LiDAR 扫描数据构建的二维占用地图上。然后围绕投影的航点进行局部搜索，以识别无碰撞的目标姿态，避开物体边框和结构性障碍物。此过程将生成一个全局适用的任务规划，该规划与场景环境相一致，并且在物理约束条件下可行。

几何约束的局部操控。对于需要近距离操控的原子动作，利用腕式深度观测来引导视觉-语言模型，从而精确生成末端执行器的姿态。尽管不同动作的物理特性各不相同，但通过单一的视觉运动界面统一执行，从而无需对每个动作都进行启发式计算。

具体来说，给定一个 RGB 观测值和当前原子动作的相应文本描述，用 Qwen2.5-VL-72B-Instruct (Bai et al. 2025)（一个增强像素级接地能力的模型）来推断图像空间中与任务相关的接触点 p∗。

该接触点被投影到对齐的深度图像上，以恢复其在机器人坐标系中对应的三维位置，表示为 P_ee。进一步提示模型，通过确定夹持器的闭合方向（x 轴）和接近方向（z 轴），生成末端执行器的方向 R_ee，并满足以下几何约束：
• 轴对齐约束：当目标物体或接触区域呈现主导轴 a 时，末端执行器的 x 轴和 z 轴均应与其正交；
• 表面法线约束：如果物体附着在法向量 n 的平面上，则末端执行器的 z 轴应与表面法线对齐，且不违反第一个约束。

通过利用 Qwen-VL 丰富的表达能力，并使用可解释的几何条件约束输出姿态，系统实现对交互密集型操作原语的可靠局部引导。这构成一个无需第三人称观察或脚本策略的细粒度操作规划系统，标志着在移动、野外环境中的可扩展部署迈出了重要一步。

全身控制策略

为了有效执行高级规划器的命令并适应不同的地形，全身控制策略至关重要。本研究提出一种基于学习的两阶段策略，该策略利用神经网络从一组观测数据中生成所需的关节位置。为了增强该策略的鲁棒性，训练过程采用了设计的、不受地形影响的末端执行器采样策略和全面的域随机化。最终的控制器能够适应各种环境交互，并可直接部署在实体机器人上。

移动操控策略。移动操控策略 π 被表述为一个单一网络，它将全面的观测向量映射到目标动作 a_t。观测数据包括：运动指令 c_t = (xˆ,yˆ,ωˆ)、六维末端效应目标 e_t、局部地面高度图 m_t、投影重力矢量 g_t、前一时间步 a_t−1 以及本体感受状态 s_t（关节位置 q_t 和速度 q ̇_t）。所有指令和目标均以机器人的基准坐标系表示。

为了稳定策略输出并缩小模拟与现实之间的差距 (Fu, Cheng, & Pathak 2023)，动作 a_t 被表示为相对于默认关节配置 q^default 的偏移量。最终目标 q^target_t = q^default + a_t，然后通过比例-微分 (PD) 控制器转换为扭矩。

为了增强训练鲁棒性并避免与搜索较大的动作空间相关的局部最小值，采用两阶段课程学习方法，如图所示。

请添加图片描述

阶段 1。在此阶段，手臂关节固定，重点训练静态负载下的运动，提高探索效率。受到 (Mittal et al. 2023) 的启发，引入步态奖励，与基础跟踪奖励一起构建机器人的步态。此外，引入一种频率奖励来调节步态的节奏。步态奖励 r_gait 鼓励特定的同步（例如，对角线）和异步（例如，横向）脚接触模式，奖励函数为 r_s 和 r_a。频率奖励 r_fre 根据目标频率 f_target 的误差来调节步态的节奏。步态频率 f(leg) 是连续地面接触时间的倒数 (t^cont_k - t^cont_k-1)。

阶段 2。经过2000次训练迭代后，流程过渡到第二阶段。在此阶段，策略控制所有18个关节，包括机械臂和四条腿。因此，除了之前描述的运动奖励外，奖励函数还扩展到包含末端执行器跟踪项r_arm，以指导策略的训练。

地形不变的末端执行器采样。为确保在不同地形条件下的稳健性能，该方法采用地形不变末端执行器采样策略。该过程首先从世界坐标系中定义的球体中采样目标位置，该球体以机器人手臂基座为中心。该策略的一个关键方面是，在将坐标转换为相对于机器人移动基座坐标系的笛卡尔目标位置之前，目标的 z 轴高度在世界坐标系内是固定的。与直接在手臂的局部坐标系中采样相比，这种方法具有显著的优势，因为它可以有效地将末端执行器目标与机器人基座俯仰或底层地形高度变化引起的干扰分离。因此，这种解耦提高了任务执行期间的交互准确性。

域随机化。为了弥合模拟与现实之间的差距，在整个训练过程中采用域随机化，这一策略得到近期研究的支持（Fu、Cheng & Pathak，2023；Pan，2025a）。为了确保对不同有效载荷的适应性，末端执行器的质量在训练过程中也会进行随机化，从而提升策略处理未知重量物体的能力。

仿真基准

为了评估导航、操控和全身控制作为一个统一系统的性能，本文提出首个专为室内外环境中的长距离移动操控量身定制的仿真基准。

素材和场景库。为了支持逼真且功能多样的评估环境，挑选一系列丰富的素材，涵盖目标实例和全尺寸 3D 场景。这些素材来源于先前的开源数据集（Wang 2024a；Team 2025；Nasiriany 2024）、公开可用的目标库以及手动创建的模型。

目标资源：挑选一组多样化的可交互目标，并将其分为四类：50 个刚性物体（例如，常见的可抓取物品）、15 个容器（例如，带有标注容器区域的碗和箱子）、30 个铰接式结构（例如，橱柜和门）以及 10 个可拖动物品（例如，推车和椅子）。

环境：基准测试包含 10 个真实场景，其中包括 5 个室内住宅、2 个超市、1 个餐厅和 2 个带有斜坡和楼梯的室外庭院。所有环境均设计为足式机器人可完全遍历，并支持多个初始化区域，以便进行大规模任务的采样和空间变化。

丰富的域风格变化。为确保泛化能力，在模拟部署过程中融入了四个维度的可变性：(1) 目标布局在各个场景的语义约束范围内变化，从而促进交互的多样性。 (2) 物理属性（包括质量、摩擦力和关节限制）在每次实验中重新采样，以引入动态变化。(3) 环境条件（例如光照、材质纹理和杂波元素）随机化，以模拟感知噪声。(4) 地形复杂度随户外场景变化，以评估运动鲁棒性。

多阶段任务套件。基准测试包含两类任务：从 ARNOLD 中合并的短范围操作技能（Gong，2023），以及旨在反映实际日常场景的长范围移动操作任务。

短范围 Arnold 任务：集成 ARNOLD 基准测试中的四个单步操作任务：PICKUPOBJECT、REORIENTOBJECT、OPENCABINET 和 CLOSECABINET。在保留其原始目标状态定义和场景配置的同时，调整空间布局和物体定位，以适应四足机器人平台的运动学和工作空间，从而确保评估的公平性和一致性。

长范围移动操作：为了评估系统的具身推理、导航和顺序操作能力，构建8个多阶段任务，涵盖不同的室内和室外场景。每个任务包含2-3个子目标，总共包含246个室内场景和58个室外场景，涵盖物体类型、空间布局和交互模式。

任务池强调广泛的技能，涵盖抓取、重定位、容器放置、关节操作以及在复杂地形上的长范围导航。短范围和长范围任务的结合使得能够对低级操作和高级规划进行基准测试。

模块化评估协议：评估整体任务成功率和每个动作的成功率。例如，在 CARTDELIVERY 任务中，定义导航至物体、拾取物体、导航至购物车、放置物体、拖动购物车和导航至目标等子任务。通过监测机器人和购物车的世界姿态以及物体与购物车之间的相对姿态来判断动作是否成功。如果在任务范围内满足相应的目标条件，则认为子任务完成。该协议同时捕获执行精度和规划一致性。

机器人系统设置。机器人平台如图所示，结合 12 自由度的 Unitree Go2 四足机器人和 6 自由度的 Arx5 机械臂。Go2（重 15 公斤，有效载荷 8 公斤）内置 Unitree L1 激光雷达，3.35 公斤的 Arx5 机械臂安装在其背面，类似于 (Ha et al. 2024)。为了实现高级感知，该平台配备用于定位的 MID-360 激光雷达和两个 RealSense 摄像头：一个头戴式 D435i 用于 RGB 图像，一个夹持器安装的 D405 用于 RGB-D 数据。控制策略以 50 Hz 运行，PD 控制器以 200 Hz 发出电机命令。

请添加图片描述