当前位置：首页 > backend >正文

【AI论文】Robix：一种面向机器人交互、推理与规划的统一模型

backend 2025/9/6 7:06:48

摘要：我们推出Robix这一统一模型，它将机器人推理、任务规划以及自然语言交互功能整合于单一的视觉语言架构之中。作为分层机器人系统中的高层认知层，Robix能够动态地为低层控制器生成原子指令，并为人机交互生成语言回复，使机器人能够在端到端框架内遵循复杂指令、规划长期任务，并与人类自然交互。此外，Robix还引入了主动对话、实时中断处理以及任务执行过程中的情境感知常识推理等新功能。Robix的核心在于利用思维链推理，并采用三阶段训练策略：（1）持续预训练，以增强基础具身推理能力，包括三维空间理解、视觉定位和以任务为中心的推理；（2）有监督微调，将人机交互和任务规划建模为统一的推理-动作序列；（3）强化学习，以提高推理-动作的一致性和长期任务的连贯性。大量实验表明，在交互式任务执行方面，Robix的表现优于开源和商业基线模型（如GPT-4o和Gemini 2.5 Pro），在多种指令类型（如开放式、多阶段、受限、无效和中断指令）以及各类涉及用户的任务（如收拾餐桌、杂货购物和饮食筛选）中均展现出强大的泛化能力。Huggingface链接：Paper page，论文链接：2509.01106

研究背景和目的

研究背景：
随着人工智能技术的快速发展，通用型机器人系统在日常生活和复杂环境中的应用前景日益广阔。然而，要实现这一愿景，机器人不仅需要能够执行简单的命令，还必须具备与人类进行自然交互、理解复杂指令并进行长程任务规划的能力。例如，在清理餐桌时，机器人不仅需要识别餐具和餐具的摆放，还需要理解诸如“如果人们吃完了，才清理盘子”这样的微妙指令，并能适应如“留下那个玻璃杯”这样的实时纠正。现有的机器人系统往往缺乏这种多模态交互和复杂任务规划的能力，限制了它们在动态环境中的应用。

研究目的：
本研究旨在开发一个名为Robix的统一模型，该模型能够集成机器人推理、任务规划和自然语言交互能力，使机器人能够在端到端的框架内遵循复杂指令、规划长程任务，并与人类进行自然交互。具体而言，研究目标包括：

实现复杂指令的理解与执行：使机器人能够理解并执行包含多层次条件和实时反馈的复杂指令。
支持长程任务规划：使机器人能够规划并执行需要多个步骤才能完成的长程任务。
增强自然交互能力：使机器人能够与人类进行自然对话，澄清模糊指令，推断用户意图，并在任务执行过程中进行动态重新规划。
提升模型在实际应用中的鲁棒性：通过广泛的实验验证，确保模型在多种实际场景中的有效性和鲁棒性。

研究方法

1. 模型架构设计：
Robix采用统一的视觉-语言架构，作为分层机器人系统中的高级认知层。该模型动态生成低层控制器的原子命令和与人类交互的口头响应，实现复杂指令的遵循、长程任务的规划和与人类的自然交互。具体而言，Robix通过链式思考（Chain-of-Thought）推理，将交互式任务执行视为统一的推理-行动序列。

2. 数据合成与训练策略：

数据合成：为了克服真实世界交互数据的稀缺性，研究设计了一个数据合成流程，将现有的任务规划数据集转化为人类-机器人交互轨迹。该流程包括七种类型的交互指令合成，涵盖多阶段指令、约束指令、开放指令、无效指令、模糊指令和聊天指令等。
三阶段训练策略：
持续预训练：在通用视觉-语言模型的基础上，通过大规模预训练增强基础具身推理能力，包括3D空间理解、视觉定位和任务中心推理。
监督微调：利用合成数据集进行监督微调，将人类-机器人交互和任务规划建模为统一的推理-行动序列。
强化学习：通过强化学习进一步提高推理-行动一致性，特别是在长程任务中的表现。

3. 实验设计：

基准测试：在多个基准测试上评估Robix的性能，包括公开的视觉-语言基准测试（如3D空间理解、视觉定位、任务中心推理）和专门设计的交互式任务基准测试。
实际场景测试：在实际机器人系统上部署Robix，评估其在真实世界任务中的表现，包括桌面清理、饮食过滤、杂货购物等任务。

研究结果

1. 基准测试性能：

在公开的视觉-语言基准测试上，Robix在多个任务上表现出色，特别是在3D空间理解、视觉定位和任务中心推理方面，超越了多个先进的商业和开源模型。
在交互式任务基准测试上，Robix在分布内（ID）和分布外（OOD）场景中均表现出色，显著优于所有基线方法，包括GPT-4o和Gemini-2.5-Pro等领先的商业模型。

2. 实际场景性能：