【VLAs篇】01:GROOT N1—面向通用人形机器人的开放基础模型
栏目 | 内容 |
---|---|
论文标题 | GROOT N1: 一个面向通用人形机器人的开放基础模型 (GROOT N1: An Open Foundation Model for Generalist Humanoid Robots) |
作者/机构 | NVIDIA |
关键词 | 人形机器人 (Humanoid Robots), 基础模型 (Foundation Model), 视觉-语言-动作模型 (VLA), 双系统架构 (Dual-System Architecture), 模仿学习 (Imitation Learning), 数据金字塔 (Data Pyramid), 扩散模型 (Diffusion Model) |
解决的问题 | 如何为通用人形机器人构建一个能够处理新情境、应对真实世界变数并快速学习新任务的智能大脑,特别是在缺乏大规模、多样化人形机器人训练数据的情况下。 |
主要贡献/创新点 | 1. 提出 GROOT N1,一个开放的、面向通用人形机器人的 VLA 基础模型。 2. 采用双系统架构:系统2 (VLM) 进行环境理解和任务规划,系统1 (扩散变换器) 进行实时流畅的动作生成。 3. 提出“数据金字塔”策略,整合真实机器人轨迹、人类视频和合成数据(仿真轨迹和神经轨迹)进行训练。 4. 开发了有效的协同训练策略,包括使用潜行动作和逆动力学模型 (IDM) 从无动作标签的视频中推断动作。 5. 模型支持跨多种机器人具身形态,并在仿真和真实 GR-1 人形机器人上展示了优越性能和高数据效率。 |
核心方法 | 模型架构: 双系统 VLA 模型。系统2是基于 Eagle-2 VLM 的视觉-语言模块;系统1是基于流匹配的扩散变换器 (DiT) 动作模块。两者通过交叉注意力紧密耦合,并端到端联合训练。 数据策略: 数据金字塔,结合真实数据、合成数据(仿真生成和神经视频生成)和人类视频。利用 VQ-VAE 学习潜行动作,利用 IDM 推断伪动作。 训练: 预训练和数据高效的后训练。 |
数据集 | 数据金字塔: - 底层: 网络数据和人类视频 (Ego4D, Ego-Exo4D, Assembly-101, EPIC-KITCHENS, HOI4D, HoloAssist, RH20T-Human) - 中层: 合成数据 (RoboCasa, DexMimicGen生成的仿真轨迹;基于微调视频模型生成的神经轨迹) - 顶层: 真实机器人数据 (GROOT N1 人形机器人预训练数据集, Open X-Embodiment, AgiBot-Alpha) |
实验结果亮点 | 1. GROOT N1 在标准仿真基准上优于 SOTA 模仿学习基线。 2. 在真实 GR-1 人形机器人上,GROOT N1 在语言条件下的双手操作任务中表现出色,数据效率高。 3. 预训练模型展现出强大的泛化能力,例如在未见过的情境下执行双手协调任务。 4. 与基线相比,后训练的 GROOT N1 动作更平滑,抓取精度更高,即使在低数据量下也表现良好。 5. 使用神经轨迹增强后训练数据能显著提升模型性能。 |
未来工作 | 1. 扩展模型能力以处理长时程移动操作任务。 2. 采用更强的视觉-语言主干网络以增强空间推理、语言理解和适应性。 3. 改进合成数据生成技术,以产生更逼真、多样化和符合物理规律的数据。 4. 探索新的模型架构和预训练策略,以提高通用机器人模型的鲁棒性和泛化能力。 |
论文具体实现流程总结
模型名称: GROOT N1
整体架构: 双系统视觉-语言-动作 (VLA) 模型,由系统2 (推理) 和系统1 (动作) 组成。
输入:
- 视觉观察 (Visual Observations): 来自机器人摄像头的图像 (例如,头戴式摄像头,224x224 分辨率)。
- 语言指令 (Language Instructions): 描述任务目标的自然语言文本 (例如,“拿起苹果放到下层架子上”)。
- 机器人本体状态 (Robot Proprioceptive State): 机器人当前的物理状态,因具身形态而异,可能包括:
- 关节位置 (Joint Positions)
- 关节速度 (Joint Velocities)
- 末端执行器姿态 (End-Effector Poses - EEF Poses)
- 机器人基座位置/姿态 (Base Position/Pose)
- 夹爪状态 (Gripper State)
模块与流程:
-
数据预处理与编码:
- 图像处理: 图像通过视觉编码器(如 SigLIP-2 的一部分)编码为图像 token (每帧64个)。
- 文本处理: 语言指令通过文本分词器 (tokenizer) 转换为文本 token。
- 机器人状态处理: 机器人本体状态通过具身特定的 MLP 编码器投影到共享嵌入空间。
- 动作处理 (训练时): 真实的动作块 A t A_t At (包含 H = 16 H=16 H=16 个未来动作) 被噪声化为 A t τ = τ A t + ( 1 − τ ) ϵ A_t^\tau = \tau A_t + (1-\tau)\epsilon Atτ=τAt+(1−τ)ϵ。带噪声的动作 A t τ A_t^\tau Atτ 和扩散时间步 τ \tau τ 通过具身特定的 MLP 动作编码器进行编码。
-
系统 2: 视觉-语言模块 (Vision-Language Module - VLM)
- 组件: 基于 NVIDIA Eagle-2 VLM (从 SmolLM2 LLM 和 SigLIP-2 图像编码器微调而来)。
- 处理:
- 接收编码后的图像 token 和文本 token。
- 以聊天格式处理视觉和语言输入,理解环境和任务目标。
- 输出视觉-语言特征 ( ϕ t \phi_t ϕt),通常从 VLM 的中间层(如第12层)提取,以平衡性能和推理速度。
- 运行频率: 约 10Hz。
-
系统 1: 扩散变换器模块 (Diffusion Transformer Module - DiT)
- 组件: 基于 DiT (Peebles and Xie, 2023) 的变体,采用流匹配 (flow-matching) 损失进行训练。包含交替的自注意力和交叉注意力层。
- 处理 (训练时 - 去噪):
- 接收编码后的机器人状态 q t q_t qt、编码后的带噪声动作 A t τ A_t^\tau Atτ 以及来自系统2的视觉-语言特征 ϕ t \phi_t ϕt。
- 自注意力模块处理 A t τ A_t^\tau Atτ 和 q t q_t qt。
- 交叉注意力模块使模型能够以 ϕ t \phi_t ϕt 为条件。
- 模型 V θ ( ϕ t , A t τ , q t ) V_\theta(\phi_t, A_t^\tau, q_t) Vθ(ϕt,Atτ,qt) 预测去噪向量场 ( ϵ − A t ) (\epsilon - A_t) (ϵ−At)。
- 处理 (推理时 - 动作生成):
- 从随机噪声 A t 1 ∼ N ( 0 , I ) A_t^1 \sim N(0, I) At1∼N(0,I) 开始。
- 通过 K 次 (例如 K=4) 前向欧拉积分迭代去噪,逐步生成动作块: A t i + 1 / K = A t i + 1 K V θ ( ϕ t , A t i , q t ) A_t^{i+1/K} = A_t^i + \frac{1}{K} V_\theta(\phi_t, A_t^i, q_t) Ati+1/K=Ati+K1Vθ(ϕt,Ati,qt)。
- 最终的去噪动作块通过具身特定的 MLP 动作解码器转换为实际的电机指令。
- 运行频率: 约 120Hz (生成高频闭环电机动作)。
-
联合训练 (Joint Training):
- 系统1和系统2紧密耦合,并进行端到端的联合优化。
- 损失函数: 主要使用流匹配损失 L f m ( θ ) = E τ [ ∣ ∣ V θ ( ϕ t , A t τ , q t ) − ( ϵ − A t ) ∣ ∣ 2 ] L_{fm}(\theta) = E_\tau [||V_\theta(\phi_t, A_t^\tau, q_t) - (\epsilon - A_t)||^2] Lfm(θ)=Eτ[∣∣Vθ(ϕt,Atτ,qt)−(ϵ−At)∣∣2]。
- 辅助损失 (可选): 如辅助对象检测损失,以增强模型的空间理解能力。
输出:
- 机器人电机动作序列 (Sequence of Robot Motor Actions): 一系列高频 (120Hz) 的电机指令,用于控制机器人在未来 H H H 个时间步内的动作。
数据策略与训练流程:
- 数据金字塔 (Data Pyramid):
- 底层 (大规模, 通用先验): 网络数据 (文本、图像) 和人类视频 (如 Ego4D)。
- 中层 (中等规模, 任务相关): 合成数据,包括:
- 仿真轨迹: 使用 DexMimicGen 等工具在物理仿真器中生成。
- 神经轨迹: 使用微调的视频生成模型 (如 WAN2.1-I2V-14B) 生成反事实的机器人操作视频。
- 顶层 (小规模, 真实落地): 真实机器人遥操作轨迹 (如 GR-1, Open X-Embodiment)。
- 动作标签化:
- 潜行动作 (Latent Actions - LAPA): 训练 VQ-VAE 模型从无动作标签的视频 (人类视频、神经轨迹) 中提取运动特征作为潜行动作。
- 逆动力学模型 (IDM): 训练 IDM 从连续视频帧 (当前帧和未来帧) 预测两者之间的动作块 (伪动作),用于标记神经轨迹。
- 预训练 (Pre-training):
- 在整个数据金字塔的异构数据混合上进行端到端训练。
- 使用统一模型和单一权重集,支持多种机器人具身形态(通过具身特定编码器/解码器)。
- 后训练/微调 (Post-training/Fine-tuning):
- 在特定下游任务和具身形态的较小数据集上进行微调。
- 可以结合少量真实演示和增强的神经轨迹 (用 IDM 标记) 进行数据高效的微调。
- 通常冻结 VLM 的语言组件,微调其余部分。
关键技术点:
- 跨具身支持: 通过具身特定的状态/动作编码器和解码器实现。
- 动作分块 (Action Chunking): 一次预测和处理未来 H 步的动作。
- 流匹配 (Flow Matching): 用于训练扩散模型进行动作生成。
- Eagle-2 VLM: 提供强大的视觉和语言理解能力。
- Diffusion Transformer (DiT): 高效的序列建模,用于动作生成。
这个流程描述了 GROOT N1 如何从多模态输入(视觉、语言、机器人状态)出发,通过其双系统架构,并结合创新的数据策略和训练方法,最终输出机器人控制动作,以实现通用的人形机器人操作。
文章目录
- 摘要
- 1. 引言
- 2. GROOT N1 基础模型
- 2.1. 模型架构
- 2.2. 训练数据生成
- 2.3. 训练细节
- 3. 预训练数据集
- 3.1. 真实世界数据集
- 3.2. 合成数据集
- 3.3. 人类视频数据集
- 4. 评估
- 4.1. 仿真基准测试
- 4.2. 真实世界基准测试
- 4.3. 实验设置
- 4.4. 定量结果
- 4.5. 定性结果
- 4.6. 局限性
- 5. 相关工作
- 6. 结论
摘要
通用机器人需要一个多功能的身体和一个智能的大脑。最近人形机器人在硬件平台方面取得了巨大进展,为在人类世界中构建通用自主性展现了巨大潜力。一个基于海量多样化数据源训练的机器人基础模型,对于使机器人能够推理新情境、稳健处理真实世界的可变性并快速学习新任务至关重要。为此,我们推出了 GROOT N1,一个面向人形机器人的开放基础模型。GROOT N1 是一个采用双系统架构的视觉-语言-动作 (VLA) 模型。视觉-语言模块(系统2)通过视觉和语言指令解释环境。随后的扩散变换器模块(系统1)实时生成流畅的运动动作。两个模块紧密耦合,并进行端到端的联合训练。我们使用真实机器人轨迹、人类视频和综合生成数据集的异构混合数据来训练 GROOT N1。我们展示了我们的通用机器人模型 GROOT N1 在多个机器人形态的标准仿真基准测试中优于最先进的模仿学习基线。此外,我们在 Fourier GR-1 人形机器人上部署了我们的模型,用于语言条件下的双手操作任务,以高数据效率实现了强大的性能。
1. 引言
创造能够在人类世界中执行日常任务的自主机器人,长期以来一直是一个引人入G胜的目标,同时也是一项重大的技术挑战。机器人硬件、人工智能和加速计算的最新进展共同为开发通用机器人自主性铺平了道路。为了迈向人类水平的物理智能,我们提倡一个集成了三个关键要素的全栈解决方案:硬件、模型和数据。首先也是最重要的,机器人是具身的物理智能体,其硬件决定了它们的能力范围。这使得人形机器人因其类人形态和多功能性而成为构建机器人智能的一个引人注目的形式。其次,现实世界的多样性和可变性要求机器人能够基于开放式目标进行操作并执行广泛的任务。实现这一点需要一个足够表达力且能够处理各种任务的通用机器人模型。第三,大规模获取真实世界的人形机器人数据成本高昂且耗时。我们需要一种有效的数据策略来训练大规模机器人模型。
近年来,基础模型在理解和生成视觉及文本数据方面取得了巨大突破。它们证明了在网络规模数据上训练通用模型以实现强大泛化能力和对下游任务快速适应的有效性。基础模型在人工智能邻近领域的成功为构建通用机器人智能的“支柱”描绘了一个充满希望的路线图,赋予它们一套核心能力,并使它们能够在现实世界中快速学习和适应。然而,与数字领域的文字和像素不同,不存在用于大规模预训练的人形机器人数据集的互联网。任何单个人形机器人硬件可用的数据量都将小几个数量级。机器人学习社区最近的努力 (Open X-Embodiment Collaboration et al., 2024) 探索了跨具身学习,通过汇集来自许多不同机器人的训练数据来扩充数据集。然而,机器人具身、传感器、执行器自由度、控制模式和其他因素的巨大差异导致了“数据孤岛”群岛,而不是训练真正通用模型所需的连贯的、互联网规模的数据集。
图1:机器人基础模型训练的数据金字塔。 GROOT N1 的异构训练语料库可以表示为一个金字塔:数据量从底部到顶部递减,而具身特定性则递增。
我们引入 GROOT N1,一个面向通用人形机器人的开放基础模型。GROOT N1 模型是一个视觉-语言-动作 (VLA) 模型,它根据图像和语言指令输入生成动作。它支持从桌面机械臂到灵巧人形机器人的跨具身形态。它采用了一种双系统组合式架构,灵感来源于人类认知过程 (Kahneman, 2011)。系统2推理模块是一个预训练的视觉-语言模型 (VLM),在 NVIDIA L40 GPU 上以 10Hz 运行。它处理机器人的视觉感知和语言指令,以解释环境并理解任务目标。随后,一个使用动作流匹配 (action flow-matching) 训练的扩散变换器 (Diffusion Transformer) 作为系统1动作模块。它交叉注意到 VLM 输出的 token,并采用具身特定的编码器和解码器来处理可变的状G态和动作维度以进行运动生成。它以更高的频率 (120Hz) 生成闭环电机动作。系统1和系统2模块都实现为基于 Transformer 的神经网络,在训练过程中紧密耦合和联合优化,以促进推理和驱动之间的协调。
为了缓解前面提到的“数据孤岛”问题,我们将 VLA 训练语料库组织成一个数据金字塔,如图1所示。我们不是将训练数据集视为一个同质的池子,而是按规模组织异构来源:大量的网络数据和人类视频构成了金字塔的底部;通过物理仿真生成和/或通过现成的神经模型增强的合成数据构成了中间层;而在物理机器人硬件上收集的真实世界数据则构成了顶部。金字塔的较低层提供广泛的视觉和行为先验,而较高层则确保在具身的、真实机器人执行中的落地。
我们开发了一种有效的协同训练策略,以便在预训练和后训练阶段学习整个数据金字塔。为了用无动作数据源(如人类视频和神经生成的视频)训练我们的模型,我们学习了一个潜行动作码本 (Ye et al., 2025),并使用一个训练好的逆动力学模型 (IDM) 来推断伪动作。这些技术使我们能够在无动作视频上标注动作,从而可以有效地将它们视为模型训练的额外机器人具身形态。通过统一数据金字塔中的所有数据源,我们构建了一个一致的数据集,其中输入包括机器人状态、视觉观察和语言指令,输出是相应的电机动作。我们通过在这个异构数据混合中采样训练批次,跨越三个数据层——(标注的)视频数据集、综合生成的数据集和真实机器人轨迹——对我们的模型进行端到端的预训练。
凭借统一的模型和单一的权重集,GROOT N1 可以使用单臂、双手和人形具身形态生成多样的操作行为。在标准仿真基准环境上进行评估,GROOT N1 取得了优于最先进模仿学习基线的结果。我们还展示了 GROOT N1 在 GR-1 人形机器人真实世界实验中的强大性能。我们的 GROOT-N1-2B 模型检查点、训练数据和仿真基准测试公开可在此处获取:GitHub 和 HuggingFace Datasets。
2. GROOT N1 基础模型
GROOT N1 是一个视觉-语言-动作 (VLA) 模型,用于在多样化数据源上训练的人形机器人。该模型包含一个编码语言和图像输入的视觉-语言主干网络,以及一个输出高频动作的基于 DiT (Diffusion Transformer) 的流匹配策略。我们使用 NVIDIA Eagle-2 VLM (Li et al., 2025) 作为视觉-语言主干网络。具体来说,我们公开发布的 GROOT-N1-2B 模型总共有 22亿 (2.2B) 参数,其中 VLM 占 13.4亿 (1.34B) 参数。在使用 bf16 精度和 L40 GPU 的情况下,采样一个包含16个动作的块的推理时间为 63.9ms。图2提供了我们模型设计的高级概述。我们强调 GROOT N1 的三个关键特性:
- 我们设计了一个组合模型,在一个统一的学习框架中集成了基于视觉-语言模型 (VLM) 的推理模块(系统2)和基于扩散变换器 (DiT) 的动作模块(系统1);
- 我们开发了一种有效的预训练策略,使用人类视频、仿真和神经生成数据以及真实机器人演示的混合数据(见图1)以实现泛化和鲁棒性;
- 我们训练了一个大规模的多任务、语言条件策略,该策略支持广泛的机器人具身形态,并通过数据高效的后训练实现对新任务的快速适应。
图2:GROOT N1 模型概览。 我们的模型是一个采用双系统设计的视觉-语言-动作 (VLA) 模型。我们将图像观察和语言指令转换为一系列 token,由视觉-语言模型 (VLM) 主干处理。VLM 的输出与机器人状态和动作编码一起传递给扩散变换器模块以生成电机动作。
2.1. 模型架构
在本节中,我们描述 GROOT N1 模型架构,如图3所示。GROOT N1 使用流匹配 (Lipman et al.) 来学习动作生成。一个扩散变换器 (DiT) 处理机器人的本体感知状态和动作,然后与来自 Eagle-2 VLM 主干的图像和文本 token 进行交叉注意力计算,以输出去噪的电机动作。下面,我们详细阐述每个模块。
状态和动作编码器
为了处理不同机器人具身形态下不同维度的状态和动作,我们为每个具身形态使用一个 MLP 将它们投影到共享的嵌入维度,作为 DiT 的输入。与 Black et al. (2024) 类似,动作编码器 MLP 也将扩散时间步与带噪声的动作向量一起编码。
我们使用动作流匹配,通过迭代去噪来采样动作。除了机器人本体感知状态、图像 token 和文本 token 的编码外,模型还输入带噪声的动作。动作以块 (chunks) 的形式处理,如 Zhao et al. (2023) 所述,这意味着在任何给定时间 t t t,模型使用 A t = [ a t , a t + 1 , . . . , a t + H − 1 ] A_t = [a_t, a_{t+1}, ..., a_{t+H-1}] At=[at,at+1,...,at+H−1],其中包含从时间步 t t t 到 t + H − 1 t+H-1 t+H−1 的动作向量。在我们的实现中,我们设置 H = 16 H=16 H=16。
图3:GROOT N1 模型架构。 GROOT N1 在从单臂机械臂到双手人形灵巧手等多种具身形态上进行训练。为了处理不同机器人具身形态的状态观察和动作,我们使用具有具身感知状态和动作编码器的 DiT 模块来嵌入机器人的状态和动作输入。GROOT N1 模型利用 Eagle-2 模型的潜在嵌入来整合机器人的视觉观察和语言指令。视觉语言 token 随后通过交叉注意力层输入到 DiT 模块中。
视觉-语言模块(系统2)
为了编码视觉和语言输入,GROOT N1 使用了在互联网规模数据上预训练的 Eagle-2 (Li et al., 2025) 视觉-语言模型 (VLM)。Eagle-2 是从一个 SmolLM2 (Allal et al., 2025) LLM 和一个 SigLIP-2 (Tschannen et al., 2025) 图像编码器微调而来的。图像以 224x224 的分辨率编码,然后进行像素重排 (pixel shuffle) (Shi et al., 2016),每帧产生64个图像 token 嵌入。然后,这些嵌入与文本一起由 Eagle-2 VLM 的 LLM 组件进一步编码。LLM 和图像编码器遵循 Li et al. (2025) 的通用方法,在一系列广泛的视觉-语言任务上进行对齐。
在策略训练期间,任务的文本描述以及(可能多个)图像以视觉-语言训练期间使用的聊天格式传递给 VLM。然后我们从 LLM 中提取形状为(批量大小 x 序列长度 x 隐藏维度)的视觉-语言特征。我们发现,使用中间层而不是最终层的 LLM 嵌入可以带来更快的推理速度和更高的下游策略成功率。对于 GROOT-N1-2B,我们使用第12层的表示。
扩散变换器模块(系统1)
对于动作建模,GROOT N1 使用了 DiT (Peebles and Xie, 2023) 的一个变体,这是一个通过自适应层归一化 (adaptive layer normalization) 实现去噪步骤条件化的变换器,表示为 V θ V_\theta Vθ。如图3所示, V θ V_\theta Vθ 由交替的交叉注意力和自注意力模块组成,类似于 Flamingo (Alayrac et al., 2022) 和 VIMA (Jiang et al., 2023)。自注意力模块在带噪声的动作 token 嵌入 A t τ A_t^\tau Atτ 和状态嵌入 q t q_t qt 上操作,而交叉注意力模块允许以 VLM 输出的视觉-语言 token 嵌入 τ \tau τ 为条件。在最后一个 DiT 模块之后,我们应用一个具身特定的动作解码器(另一个 MLP)到最后的 H 个 token 上以预测动作。
给定一个真实的动作块 A t A_t At,一个流匹配时间步 τ ∈ [ 0 , 1 ] \tau \in [0, 1] τ∈[0,1] 和采样的噪声 ϵ ∼ N ( 0 , I ) \epsilon \sim N(0, I) ϵ∼N(0,I),带噪声的动作块 A t τ A_t^\tau Atτ 计算为 A t τ = τ A t + ( 1 − τ ) ϵ A_t^\tau = \tau A_t + (1-\tau)\epsilon Atτ=τAt+(1−τ)ϵ。模型预测 V θ ( ϕ t , A t τ , q t ) V_\theta(\phi_t, A_t^\tau, q_t) Vθ(ϕt,Atτ,qt) 旨在通过最小化以下损失来逼近去噪向量场 ϵ − A t \epsilon - A_t ϵ−At:
L f m ( θ ) = E τ [ ∣ ∣ V θ ( ϕ t , A t τ , q t ) − ( ϵ − A t ) ∣ ∣ 2 ] L_{fm}(\theta) = E_\tau [||V_\theta(\phi_t, A_t^\tau, q_t) - (\epsilon - A_t)||^2] Lfm(θ)=Eτ[∣∣Vθ(ϕt,Atτ,qt)−(ϵ−At)∣∣2] (1)
与 Black et al. (2024) 类似,我们使用 p ( τ ) = Beta ( τ − s 1 − s ; 1.5 , 1 ) p(\tau) = \text{Beta}(\frac{\tau-s}{1-s}; 1.5, 1) p(τ)=Beta(1−sτ−s;1.5,1),其中 s = 0.999 s=0.999 s=0.999。在推理过程中,我们使用 K 步去噪生成动作块。首先,随机采样 A t 1 ∼ N ( 0 , I ) A_t^1 \sim N(0, I) At1∼N(0,I),然后使用前向欧拉积分迭代生成动作块,更新如下:
A t i + 1 / K = A t i + 1 K V θ ( ϕ t , A t i , q t ) A_t^{i+1/K} = A_t^i + \frac{1}{K} V_\theta(\phi_t, A_t^i, q_t) Ati+1/K=Ati+K1Vθ(ϕt,Ati,qt)。
在实践中,我们发现 K = 4 K=4 K=4 个推理步骤在所有具身形态下都表现良好。
2.2. 训练数据生成
为了训练 GROOT N1,我们使用多样化的数据源和目标来构建数据金字塔(图1)。我们首先从开放数据集中获取多样化的人类第一视角视频数据,这与 VLM 预训练中使用的网络数据一起构成了金字塔的底部。接下来,我们使用预训练的视频生成模型生成合成的神经轨迹。通过这种方式,我们使用多样化的反事实机器人轨迹和新颖的语言提示(示例见图5),将我们内部收集的遥操作轨迹(数据金字塔的“顶峰”)从88小时扩充到827小时,大约增加了10倍。我们还生成了多样化的仿真轨迹,这也扩展了数据金字塔的中间部分。
在下一段中,我们首先描述如何从视频中提取潜行动作,我们用它来提取网络规模的人类第一视角数据集的标签。接下来,我们描述如何生成神经和仿真机器人轨迹,以及如何为这些数据源获取动作。
潜行动作
对于人类第一视角视频和神经轨迹,我们没有任何可以直接用于训练 GROOT N1 的动作。对于这些数据,我们通过训练一个 VQ-VAE 模型来从视频的连续图像帧中提取特征,从而生成潜行动作 (Ye et al., 2025)。编码器接收当前帧 x t x_t xt 和固定窗口大小 H H H 后的未来帧 x t + H x_{t+H} xt+H,并输出潜行动作 z t z_t zt。解码器被训练来接收潜行动作 z t z_t zt 和 x t x_t xt 并重建 x t + H x_{t+H} xt+H。该模型使用 VQ-VAE 目标进行训练,其中编码器的连续嵌入被映射到码本中最近的嵌入。训练后,我们将编码器用作逆动力学模型;给定一个 x t x_t xt 和 x t + H x_{t+H} xt+H 对,我们提取连续的预量化嵌入,并在预训练期间将其用作潜行动作标签,使用相同的流匹配损失,但将其视为一个独特的“LAPA”具身形态。在所有异构数据上共同训练 VQ-VAE 模型使我们能够统一所有数据以共享相同的学习潜行动作空间,从而可能提高跨具身泛化能力。图4显示了来自8个不同具身形态(包括机器人和人类具身形态)的 x t x_t xt 和 x t + H x_{t+H} xt+H 对,所有这些都是从相似的潜行动作中检索到的;第一个潜行动作显示所有具身形态都将右臂向左移动,第二个潜行动作显示将右臂向右移动。
图4:潜行动作。 我们在不同具身形态中检索相似的潜在嵌入。左图展示了对应于将右臂(或手)向左移动的潜行动作,而右图展示了对应于将右臂(或手)向右移动的潜行动作。请注意,这种通用的潜行动作不仅在不同的机器人具身形态中一致,在人类具身形态中也是如此。
神经轨迹
机器人数据通常需要人类操作员遥控机器人来产生每个轨迹,因此其规模与人类劳动成线性关系。最近,视频生成模型在高质量可控视频生成方面展现出巨大潜力 (Brooks et al., 2024; Lin et al., 2024; Ren et al., 2025; Wan Team, 2025; Xiang et al., 2024; Yang et al., 2024),这为在机器人领域构建世界模型铺平了道路。为了利用这些模型,我们在我们所有88小时内部收集的遥操作数据上微调了图像到视频生成模型 (Agarwal et al., 2025; Wan Team, 2025; Yang et al., 2024),并根据现有的初始帧和新颖的语言提示生成了827小时的视频数据,将其扩充了约10倍。这使得能够生成训练数据,这些数据捕获了现实世界中更多反事实场景,而无需为每种情况实际收集遥操作数据(示例见图5;更多梦想生成示例见图13)。
为了增加我们神经轨迹的多样性,我们首先使用一个商业级的多模态 LLM 来检测给定初始帧中的对象,并生成更多“从{位置A}拿起{对象}到{位置B}”的可能组合,同时指示模型仅考虑物理上可行的组合。我们还应用后处理机制,包括对生成的视频进行过滤和重新标注。为此,我们还使用一个商业级的多模态 LLM 作为评判员,并输入下采样的8帧来过滤掉那些不精确遵循语言指令的神经轨迹。然后我们对过滤后的视频进行标注。(更多细节见附录F)。
仿真轨迹
由于同时控制双臂和灵巧双手的挑战,扩大真实世界人形机器人数据收集的成本非常高昂。最近的研究 (Jiang et al., 2024; Mandlekar et al., 2023; Wang et al., 2024) 表明,在仿真中生成训练数据是一种实用的替代方案。我们使用 DexMimicGen (Jiang et al., 2024) 来合成大规模机器人操作轨迹。
从少量人类演示开始,DexMimicGen 应用演示转换和仿真回放来自动扩展数据集。每个任务被分解为一系列以对象为中心的子任务。最初的人类演示被分割成较小的操作序列,每个序列对应一个涉及单个对象的子任务。然后,通过将这些片段与对象的位置对齐,同时保留机器人末端执行器和对象之间的相对姿态,将它们适应到新环境中。为了确保平稳执行,系统会在机器人的当前状态和转换后的片段之间进行运动插值。然后机器人逐步遵循完整序列,并在结束时验证任务成功。只保留成功的演示,以确保高质量数据。使用 DexMimicGen,我们将有限的人类演示扩展为大规模的人形机器人操作数据集。考虑到预训练和后训练数据集,我们已经生成了780,000个仿真轨迹——相当于6,500小时,或连续九个月的人类演示数据——仅仅用了11个小时。这些仿真数据以极少的人力成本显著补充了真实机器人数据。
图5:合成生成的视频。 我们利用现成的视频生成模型创建神经轨迹,以增加我们训练数据集的数量和多样性。这些生成的数据可用于我们 GROOT N1 的预训练和后训练。(1) 前三行是从相同的初始帧生成但具有不同的提示(改变左或右,放置对象的位置),(2) 接下来的两行是从相同的初始帧生成但替换了要拾取的对象,(3) 再下一行展示了视频模型生成了一个在仿真中非常难以生成的机器人轨迹(将网杯中的内容倒入箱子中),以及 (4) 最后一行是从仿真数据的初始帧生成的。我们使用红色矩形指示初始帧。
2.3. 训练细节
预训练
在预训练阶段,GROOT N1 通过流匹配损失(公式1)在一系列多样化的具身形态和数据源上进行训练,包括各种真实和合成机器人数据集以及人类运动数据。我们请读者参阅第3节以获取数据集的详细描述。
对于人类视频,在没有真实动作的情况下,我们提取学习到的潜行动作,并将它们用作流匹配目标(见第2.2节)。对于机器人数据集,例如我们的 GR-1 人形机器人数据或 Open X-Embodiment 数据,我们既使用真实的机器人动作,也使用学习到的潜行动作作为流匹配目标。在用于增强我们机器人数据集的神经轨迹(第2.2节)的情况下,我们既使用潜行动作,也使用从在真实机器人数据上训练的逆动力学模型预测的动作。预训练的超参数列在附录的表6中。
后训练
在后训练阶段,我们在对应于每个单一具身形态的数据集上微调我们预训练的模型。与预训练一样,我们保持 VL 主干的语言组件冻结,并微调模型的其余部分。后训练的超参数在附录的表6中给出。
使用神经轨迹进行后训练
为了克服后训练期间数据稀缺的挑战,我们探索了通过生成神经轨迹来增强每个下游任务的数据,类似于第2.2节中描述的过程。对于以多个视图为条件的下游任务,我们微调视频模型以生成网格中的多个子图像(图13)。对于仿真任务,我们从随机初始化的环境中收集多样化的初始帧。对于真实机器人任务,我们手动随机初始化对象姿态并记录机器人的初始观察。新的初始帧也可以使用 img2img 扩散自动创建(示例见图13),但我们将进一步探索留给未来的工作。我们还展示了 (1) 用于生成由原子任务组成的长时程轨迹的多轮视频生成示例和 (2) 液体和关节对象的神经轨迹示例,这些对象已知在仿真中极具挑战性,尽管我们将下游任务的定量评估留给未来的工作。
对于我们使用神经轨迹的后训练流程,我们限制自己仅在人类收集的仿真任务轨迹上微调视频生成模型,并且仅使用为后训练收集的真实世界基准测试数据的10%,以匹配我们只有有限数量遥操作数据的现实场景。由于生成的视频没有动作标签,我们使用潜行动作或逆动力学模型 (IDM) 标记的动作 (Baker et al., 2022),并训练策略模型将这些伪动作视为不同具身形态的动作标签。在低数据量场景中,我们还限制自己仅在低数据量上训练 IDM 模型,以促进现实场景。附录F中提供了我们如何训练 IDM 模型的细节。第4.4节中对潜行动作和 IDM 标记动作进行了一些经验比较。在后训练期间,我们以1:1的采样率将策略与真实世界轨迹和神经轨迹共同训练。
训练基础设施
我们通过 NVIDIA OSMO (NVIDIA, 2025)(一个用于扩展复杂机器人工作负载的编排平台)管理的集群上训练 GROOT N1。训练集群配备了通过 NVIDIA Quantum-2 InfiniBand 以胖树拓扑连接的 H100 NVIDIA GPU。我们通过一个基于 Ray 分布式计算库 (Moritz et al., 2018) 构建的自定义库来促进容错的多节点训练和数据摄取。我们为一个单一模型使用多达1024个 GPU。GROOT-N1-2B 的预训练大约使用了50,000个 H100 GPU 小时。
在单个 A6000 GPU 的上下文中测试了计算受限的微调。如果仅调整适配器层(动作和状态编码器+动作解码器)和 DiT,可以使用高达200的批量大小。当调整视觉编码器时,可以使用高达16的批量大小。
3. 预训练数据集
我们将预训练语料库分为三个主要类别:真实机器人数据集(第3.1节)、合成数据集(第3.2节)和人类视频数据集(第3.3节)。这些大致对应于数据金字塔(图1)的顶峰、中间和底部。合成数据集包括仿真轨迹和神经轨迹。表1总结了我们在第2.2节中的训练数据生成策略及其相应适用的数据源。我们在表7中提供了我们预训练数据集的完整统计数据(帧数、小时数和相机视图)。
表1:训练数据生成。 我们的数据生成策略利用不同的数据源。潜行动作学习技术广泛应用于各种视频数据集。神经轨迹可以从包含机器人动作的数据集生成,而仿真轨迹则依赖于物理模拟器并利用我们基于 DexMimicGen 的自动化数据生成系统。
潜行动作 | 神经轨迹 | 仿真轨迹 | |
---|---|---|---|
真实机器人数据集 | ✓ | ✓ | |
仿真机器人数据集 | ✓ | ✓ | ✓ |
人类视频数据集 | ✓ |
3.1. 真实世界数据集
我们使用以下真实世界机器人数据集:
- GROOT N1 人形机器人预训练数据集。 我们内部收集的数据集涵盖了广泛的通用操作任务,专注于通过遥操作的 Fourier GR1。我们利用 VIVE Ultimate Tracker 捕捉遥操作者的手腕姿态,同时 Xsens Metagloves 跟踪手指运动。我们还探索了其他遥操作硬件选项,包括 Apple Vision Pro 和 Leap Motion(见图6)。记录的人类运动随后通过逆运动学重新定位为人形机器人动作。实时遥操作以20Hz的控制频率运行。除了机器人的动作,我们还在每一步捕捉头戴式摄像头的图像,以及人类的低维本体感知和动作。该数据集包括详细描述抓取、移动和放置等原子动作的细粒度注释,以及将细粒度动作序列聚合为更高级别任务表示的粗粒度注释。这种分层结构支持学习精确的运动控制和高级别的任务推理。
- Open X-Embodiment。 Open X-Embodiment Collaboration et al. (2024) 是一个广泛使用的用于机器人操作的跨具身数据集。我们包括 RT-1 (Brohan et al., 2022)、Bridge-v2 (Walke et al., 2023)、Language Table (Lynch et al., 2022)、DROID (Khazatsky et al., 2024)、MUTEX (Shah et al., 2023)、RoboSet (Bharadhwaj et al., 2024) 和 Plex (Thomas et al., 2023),提供了涵盖各种操作任务、语言条件控制和机器人-环境交互的多样化数据集。
- AgiBot-Alpha。 AgiBot-World-Contributors et al. (2025) 是一个包含来自100个机器人的大规模轨迹数据集。在启动我们的训练运行时,我们使用了可用的140,000个轨迹。该数据集涵盖了细粒度操作、工具使用和多机器人协作。
3.2. 合成数据集
我们的合成数据集包括 1) 在物理模拟器中从少量人类演示自动倍增的仿真轨迹,以及 2) 从现成神经生成模型产生的视频中衍生的神经轨迹。
仿真轨迹
除了真实世界数据集,我们还使用了如第2.2节所述在仿真中生成的大规模合成数据集。我们的仿真任务包括人形机器人执行广泛的桌面重新排列任务,并采用大量逼真的3D资产。我们在 RoboCasa 仿真框架 (Nasiriany et al., 2024) 下构建这些任务。广义上讲,我们的任务遵循“将A从B重新排列到C”的行为,其中A对应一个对象,B和C代表环境中的源位置和目标位置。源位置和目标位置是诸如盘子、篮子、餐垫和架子之类的容器,机器人必须在源容器和目标容器的不同组合之间重新排列对象。总的来说,我们的预训练仿真数据集具有54种源容器和目标容器类别的独特组合。我们将对象和容器放置在桌子上的随机位置,并在场景中额外加入干扰对象和容器。干扰物要求模型注意任务语言以执行期望的行为。
我们使用 DexMimicGen 大规模生成多样化、高质量的训练数据集。我们的数据集以 GR-1 人形机器人为特色,但我们可以将该系统应用于各种机器人。我们首先通过使用 Leap Motion 设备进行遥操作来收集几十个源演示。Leap Motion 设备跟踪6自由度的手腕姿态和手指姿态,我们将这些值重新定位并发送到基于 mink (Zakka, 2024) 的全身 IK 控制器。给定人类演示,DexMimicGen 将演示处理成以对象为中心的片段,然后转换并组合这些片段以生成新的演示。使用该系统,我们为预训练任务机制中的每个(源、目标)容器对生成10,000个新演示,总共产生540k个演示。
图6:通过遥操作进行数据收集。 我们的遥操作基础设施支持多种设备来捕捉人类手部运动,包括6自由度手腕姿态和手部骨骼。机器人动作通过重定位产生,并在真实和仿真环境中的机器人上执行。
神经轨迹
为了生成神经轨迹,我们在我们真实世界的 GROOT N1 人形机器人预训练数据集(如第2.2节所述)上微调开源的图像到视频模型。我们在一个包含3,000个真实世界机器人数据样本(带有语言注释,每个样本以480P分辨率记录并包含81帧)的数据集上对模型进行了100个周期的训练。如图5所示,我们的模型可以在给定新颖语言提示的情况下生成高质量的反事实轨迹。此外,该模型在互联网规模的视频数据上进行训练,展现出处理未见过的初始帧、新颖对象和新运动模式的强大泛化能力。这些视频进一步用潜行动作和基于 IDM 的伪动作进行标记以用于模型训练。我们总共生成了约827小时的视频;在 L40 GPU 上生成一秒钟的视频需要2分钟,在3,600个 L40 GPU 上大约需要105k L40 GPU 小时(约1.5天)。
3.3. 人类视频数据集
我们包括一系列多样化的人类视频数据集。这些不包括明确的动作标签,但包含大量的人类-对象交互序列,捕捉了可供性 (affordances)、任务语义和自然运动模式。这些数据集涵盖了广泛的真实世界人类行为,包括在自然环境中执行的抓取、工具使用、烹饪、装配和其他面向任务的活动,并提供了手-对象交互的详细第一视角(示例见图14)。我们的视频数据集包括以下内容:
- Ego4D 是一个大规模的第一视角视频数据集,包含日常活动的各种记录 (Grauman et al., 2022);
- Ego-Exo4D 在第一视角记录的同时添加了互补的外部视角(第三人称)视图 (Grauman et al., 2024);
- Assembly-101 专注于复杂的装配任务,提供分步对象装配的详细视频 (Sener et al., 2022);
- EPIC-KITCHENS 包括烹饪活动的第一视角录像 (Damen et al., 2018);
- HOI4D 捕捉人-物交互,并带有用于分割、手部和物体姿态以及动作的逐帧注释 (Liu et al., 2022);
- HoloAssist 捕捉增强现实环境中的协作和辅助任务 (Wang et al., 2023);
- RH20T-Human 包括细粒度操作任务的记录,重点是在多样化的真实世界场景中自然的手-对象交互 (Fang et al., 2023)。
图7:仿真任务。 我们的仿真实验使用了来自两个开源基准测试(顶行的 RoboCasa (Nasiriany et al., 2024) 和中间行的 DexMimicGen (Jiang et al., 2024))的任务,以及一套新开发的、与我们真实世界任务紧密相似的桌面操作任务(底行)。我们提供了上述任务的 Omniverse 渲染图。
4. 评估
我们在各种仿真和真实世界基准测试中评估我们的 GROOT N1 模型。我们的仿真实验在三个不同的基准测试上进行,旨在系统地评估我们的模型在各种机器人具身形态和操作任务上的有效性。在我们的真实世界实验中,我们研究了模型在使用 GR-1 人形机器人完成一系列桌面操作任务时的能力。这些实验旨在证明 GROOT N1 从有限数量的人类演示中获取新技能的能力。
4.1. 仿真基准测试
我们的仿真实验包括来自先前工作的两个开源基准测试 (Jiang et al., 2024; Nasiriany et al., 2024),以及一套新开发的、旨在与我们真实世界任务设置紧密对应的桌面操作任务。我们精心选择这些基准测试来评估我们的模型在不同机器人具身形态和多样化操作任务上的表现。我们的模型检查点,连同公开可用的仿真环境和数据集,确保了我们关键结果的可复现性。图7展示了这三个基准测试中的一些示例任务。
- RoboCasa Kitchen (24 个任务, RoboCasa)
RoboCasa (Nasiriany et al., 2024) 在模拟厨房环境中提供了一系列任务。我们专注于24个“原子”任务,这些任务涉及基本的感知运动技能,如取放、开门关门、按按钮、转动水龙头等。对于每个任务,我们使用公开可用的包含3000个 Franka Emika Panda 臂演示的数据集,所有这些演示都是用 MimicGen (Mandlekar et al., 2023) 生成的。观察空间包括从位于左侧、右侧和手腕上的摄像头捕获的三个 RGB 图像。状态表示包括末端执行器和机器人底座的位置和旋转,以及夹爪的状态。动作空间由末端执行器的相对位置和旋转以及夹爪状态定义。我们遵循 Nasiriany et al. (2024) 中概述的相同训练和评估协议。 - DexMimicGen 跨具身套件 (9 个任务, DexMG)
DexMimicGen (Jiang et al., 2024) 包含一系列九个需要精确双臂协调的双手灵巧操作任务。这些任务共同涵盖了三种双手机器人具身形态:(1) 带平行颚夹爪的双手 Panda 臂:任务包括穿线、零件装配和运输。状态/动作空间包括双臂末端执行器的位置和旋转,以及夹爪状态;(2) 带灵巧手的双手 Panda 臂:任务包括清理箱子、清理抽屉和托盘提升。状态/动作空间包括双臂和双手的末端执行器位置和旋转;(3) 带灵巧手的 GR-1 人形机器人:任务包括倾倒、咖啡准备和罐子分类。状态/动作空间包括双臂和双手的关节位置和旋转,以及腰部和颈部。我们使用 DexMimicGen 数据生成系统为每个任务生成1000个演示,并评估模型泛化到新颖对象配置的能力。 - GR-1 桌面任务 (24 个任务, GR-1)
该数据集作为真实世界人形机器人数据集的数字对应物,用于系统评估,为真实机器人部署的性能提供信息。该基准测试专注于使用配备 Fourier 灵巧手的 GR-1 人形机器人进行灵巧手控制。与 DexMG 相比,该基准测试具有显著更多样化的对象和放置位置。我们总共建模了18个重新排列任务,其结构与第3.2节中概述的预训练任务相似,即,将对象从源重新排列到目标容器。每个任务都涉及容器的独特组合,并且这些组合在我们的预训练数据中是未见过的。与预训练任务一样,大多数任务都涉及干扰对象和容器,需要模型注意任务语言。我们还额外设置了六个任务,涉及将对象放入关节对象(即橱柜、抽屉和微波炉)并关闭它们。观察空间包括一个从机器人头部安装的第一视角摄像头捕获的 RGB 图像。状态/动作空间包括双臂和双手的关节位置和旋转,以及腰部和颈部。我们选择性地在我们的数据集中包含用于控制手臂的基于末端执行器的动作,因为控制全身 IK 控制器的原生动作空间是基于末端执行器的。我们使用 DexMimicGen 系统为每个任务生成1000个演示。
4.2. 真实世界基准测试
我们引入了一套多样化且精心设计的桌面操作任务,旨在评估和后训练我们模型的人类演示。这些任务强调现实世界灵巧性的关键方面,包括精确的对象操作、空间推理、双手协调和多智能体协作。我们将基准测试仔细分类为四种不同类型,确保对模型性能进行严格评估。我们在图8中展示了我们真实世界基准测试中的一些示例任务。
- 对象到容器的取放 (5 个任务, Pick-and-Place)
此类别评估模型抓取对象并将其放入指定容器的能力,这是机器人操作的基本能力。任务包括在常见的家用容器(如托盘、盘子、砧板、篮子、餐垫、碗和平底锅)之间转移对象。这些场景测试精细运动技能、空间对齐和对不同对象几何形状的适应性。为了严格评估泛化能力,我们对已见和未见对象上的模型进行评估。 - 关节对象操作 (3 个任务, Articulated)
这些任务评估模型操作关节式存储隔间的能力。模型必须抓取一个对象,将其放入诸如木箱、深色橱柜或白色抽屉之类的存储单元中,然后关闭隔间。这些任务在受限运动控制和有限空间内的精确放置方面引入了挑战。在已见和未见对象上测试泛化能力。 - 工业对象操作 (3 个任务, Industrial)
我们为工业场景设计了这个类别,其中包括三个结构化的工作流程和基于工具的交互:1) 机械零件包装:拾取各种机械零件和工具并将它们放入指定的黄色箱子中;2) 网杯倾倒:抓住一个装有小型工业组件(例如螺钉和螺栓)的网杯,并将其内容物倒入一个塑料箱中;3) 圆柱体交接:拾取一个圆柱形物体,将其从一只手转移到另一只手,然后放入一个黄色箱子中。这些任务与现实世界的工业应用密切相关,使其成为评估结构化环境中灵巧性的高度相关的基准。 - 多智能体协调 (2 个任务, Coordination)
协作任务需要在多个智能体之间进行同步,强调角色协调和自适应决策:1) 协调第1部分:拾取一个圆柱体,将其放入一个网杯中,然后交给另一个机器人;2) 协调第2部分:接收机器人将圆柱体放入一个黄色箱子中,然后将网杯中剩余的内容物倒入另一个黄色箱子中。
图8:真实世界任务。 所有图像均捕获自 GROOT-N1-2B 的策略执行以及从 GROOT-N1-2B 后训练的模型。(顶部) 预训练评估。我们设计了两个操作任务来评估我们的预训练模型。左图显示了从左到右的交接,而右图则展示了将新颖对象放置到未见过的目标容器中。(底部) 后训练评估。我们引入了四个不同的任务类别。从上到下,我们展示了对象到容器的取放、关节对象操作、工业对象操作和多智能体协调的示例。
这些精心设计的基准测试引入了结构化的、目标驱动的交互,以测试模型是否能够无缝适应真实世界的应用。为了构建高质量的后训练数据集,我们让人类操作员收集特定任务的数据,持续时间从15分钟到3小时不等,具体取决于任务的复杂性。然后我们过滤掉低质量的轨迹以保持数据完整性。通过整合多样化的任务需求——从精确的单智能体操作到复杂的多智能体协调——我们的基准测试为评估类人操作任务中的泛化能力、适应性和微调控制提供了一个严格的试验平台。
4.3. 实验设置
我们的评估实验包括在数据受限的环境中对 GROOT N1 和基线模型进行后训练(如第2.3节所述),并在我们第4.1和4.2节中描述的仿真和真实基准测试中评估策略成功率。默认情况下,我们使用1024的全局批量大小并训练60k步。对于 DexMimicGen 跨具身套件,由于每个具身形态包含的任务相对较少且整体训练数据有限,我们对 GROOT-N1-2B 使用了较小的批量大小128。
基线
为了证明 GROOT N1 多样化预训练的有效性,我们与两个已建立的基线进行比较:BC-Transformer (Mandlekar et al., 2021) 和 Diffusion Policy (Chi et al., 2024)。我们下面描述这两种方法的细节:
- BC-Transformer 是 RoboMimic (Mandlekar et al., 2021) 中一个基于 Transformer 的行为克隆策略。它由一个用于处理观察序列的 Transformer 架构和一个用于建模动作分布的高斯混合模型 (GMM) 模块组成。该策略输入10个观察帧并预测接下来的10个动作。
- Diffusion Policy (Chi et al., 2024) 通过基于扩散的生成过程对动作分布进行建模。它采用一个 U-Net 架构,从随机样本中逐步去除噪声,以生成以观察序列为条件的精确机器人动作。它输入单个观察帧,并在一次推理传递中产生16个动作步骤。
评估协议
对于仿真基准评估,我们报告100次试验的平均成功率,取最后5个检查点的最高分数,其中检查点每500个训练步骤保存一次,遵循 RoboCasa (Nasiriany et al., 2024) 的协议。
对于真实机器人评估,我们采用部分评分系统来捕捉模型在不同执行阶段的行为,确保对性能进行细粒度评估。我们报告每个任务10次试验的平均成功率,除了“包装机械零件”任务;对于此任务,我们报告在30秒的时间限制内,5个机械零件和工具中有多少个被放入箱子中的成功率。由于时间限制,我们只进行5次试验。此外,为了评估模型在低数据量环境中的效率,我们对每个任务的完整数据集进行10%的子采样,并评估模型是否仍能学习有效的行为。
4.4. 定量结果
预训练评估
为了评估我们预训练检查点的泛化能力,我们在真实的 GR-1 人形机器人上设计了两个任务(图8)。在第一个任务中,机器人被指示将一个物体放在底部架子上。然而,物体被有意放置在其左手的左侧,需要协调的双手策略。机器人必须首先用左手抓住物体,将其转移到右手的可及范围内,然后完成在架子上的放置。在第二个任务中,机器人被指示将一个新颖的物体放入一个未见过的目标容器中。对于每个任务,我们使用五个不同的物体评估预训练的 GR00T-N1-2B 模型,每个物体进行三次试验。GR00T-N1-2B 在第一个协调设置中取得了76.6% (11.5/15) 的成功率,在第二个涉及新颖物体操作的设置中取得了73.3% (11/15) 的成功率。0.5 表示正确抓取了物体但未能将其放入容器中。在这两个评估设置下的高性能说明了大规模预训练的有效性。
后训练评估
在仿真中,我们将后训练的 GROOT N1 模型与从头开始训练的基线在三个仿真基准测试中的定量结果进行比较(表2)。对于每个基准测试,我们使用每个任务30、100和300个演示进行后训练(RoboCasa 24个任务,DexMG 9个任务,GR-1 24个任务)。我们观察到 GROOT N1 在所有基准测试任务和数据集大小上始终优于基线模型。在附录B中,我们包含了完整结果和一个条形图(图10)以供比较。
表2:仿真结果。 在三个仿真基准测试上的平均成功率,每个任务使用100个演示。GROOT N1 优于两个基线,尤其是在 GR-1 任务上,其性能高出17%以上。
RoboCasa | DexMG | GR-1 | 平均 | |
---|---|---|---|---|
BC Transformer | 26.3% | 53.9% | 16.1% | 26.4% |
Diffusion Policy | 25.6% | 56.1% | 32.7% | 33.4% |
GROOT-N1-2B | 32.1% | 66.5% | 50.0% | 45.0% |
在真实机器人上,我们将 GR00T-N1-2B 与 Diffusion Policy 进行比较,分别在10%的人类遥操作数据集和完整数据集上进行训练(表3和图9)。GR00T-N1-2B 在所有任务上都取得了显著更高的成功率,在10%数据设置中比 Diffusion Policy 高出32.4%,在完整数据设置中高出30.4%。值得注意的是,仅在10%数据上训练的 GR00T-N1-2B 的性能仅比在完整数据上训练的 Diffusion Policy 低3.8%,突显了其数据效率。
表3:真实世界结果。 GR-1 人形机器人在真实世界任务上的平均策略成功率。GROOT N1 击败了 Diffusion Policy 基线,并且即使在数据量很少的情况下也显示出强大的结果。
Pick-and-Place | Articulated | Industrial | Coordination | 平均 | |
---|---|---|---|---|---|
Diffusion Policy (10% Data) | 3.0% | 14.3% | 6.7% | 27.5% | 10.2% |
Diffusion Policy (Full Data) | 36.0% | 38.6% | 61.0% | 62.5% | 46.4% |
GROOT-N1-2B (10% Data) | 35.0% | 62.0% | 31.0% | 50.0% | 42.6% |
GROOT-N1-2B (Full Data) | 82.0% | 70.9% | 70.0% | 82.5% | 76.8% |
图9:神经轨迹消融实验。 在 RoboCasa 仿真中,我们展示了在3个数据规模(每个任务30、100和300个演示)下使用神经轨迹进行后训练的结果。在真实世界中,我们仅在低数据量(10%的演示)下显示结果。我们为 RoboCasa 每个任务使用3k个神经轨迹,为真实世界任务每个任务使用100个神经轨迹进行协同训练。我们探索了在仿真中使用潜行动作和 IDM 标记的动作,以及在真实机器人上仅使用 IDM 标记的动作。
使用神经轨迹进行后训练的评估
我们在图9中展示了在 RoboCasa 基准测试(用于仿真评估)和 Pick-and-Place(已见)及 Industrial(用于真实世界评估)上使用神经轨迹进行后训练的一些初步结果。我们观察到,与仅在真实世界轨迹上训练的 GROOT N1 相比,与神经轨迹协同训练的 GROOT N1 在 RoboCasa 的30、100和300数据规模下平均分别提升了+4.2%、+8.8%、+6.8%,在 GR-1 人形机器人的8个任务上平均提升了+5.8%。
在 RoboCasa 中比较 LAPA 和 IDM 标签时,出现了一个有趣的模式:在相对低数据量(30)的情况下,LAPA 略优于 IDM,但随着更多数据可用(100和300),LAPA 和 IDM 之间的性能差距扩大。这种趋势是直观的——随着 IDM 训练数据的增多,伪动作标签与真实世界动作越来越一致,从而导致更强的正向迁移。由于 GR-1 人形机器人对我们来说是一个相对“高数据量”的场景,我们仅在真实世界的神经轨迹协同训练中使用 IDM 动作。
4.5. 定性结果
这种行为在质量上看起来如何?为了回答这个问题,我们考虑 RoboCasa 中的“转动水槽龙头”任务——在100个样本的场景中,DP 基线的成功率为11.8%,而 GROOT N1 为42.2%。DP 基线经常对任务的语义感到困惑。从表2中,我们看到 GROOT N1 在低数据量场景中表现出色。很自然,在大量微调数据集的极限情况下,预训练的效果会减弱。
当使用任务指令“拿起红苹果并放入篮子中”(我们后训练基准测试中的一个任务)提示预训练的 GR00T N1 模型时,我们观察到有趣的行为模式。在这种情况下,我们有意将苹果放置在人形机器人手的左侧。尽管在预训练期间很少见到类似任务并且动作较为抖动,但预训练的检查点使用左手抓住苹果,将其交到右手,然后放入篮子中。我们在图11中提供了此行为的可视化。相比之下,后训练的检查点在这种情况下失败了。由于所有后训练数据都只涉及右手且没有任何手间传递,因此后训练的策略失去了执行此行为的能力。
对于后训练的 GROOT N1,我们观察到,与基线 Diffusion Policy 相比,其运动通常更平滑,抓取精度显著更高。相比之下,Diffusion Policy 基线在初始帧期间会遭受不动的问题,并且经常表现出不准确的抓取,导致其在我们的真实世界基准测试中成功率较低。我们在图12中提供了两个策略执行示例的可视化。
4.6. 局限性
目前,我们的 GROOT N1 模型主要关注短时程的桌面操作任务。在未来的工作中,我们旨在扩展其能力以应对长时程的移动操作任务,这将需要在人形机器人硬件、模型架构和训练语料库方面取得进展。我们预计更强的视觉-语言主干网络将增强模型的空间推理、语言理解和适应性。我们的合成数据生成技术——利用视频生成模型和自动化轨迹合成系统——已经显示出巨大的潜力。然而,现有方法在生成多样化和反事实数据,同时遵守物理定律方面仍面临挑战,这限制了合成数据集的质量和可变性。我们旨在增强我们的合成数据生成技术,以进一步丰富我们的数据金字塔以用于模型训练。此外,我们计划探索新颖的模型架构和预训练策略,以提高我们通用机器人模型的鲁棒性和泛化能力。
5. 相关工作
机器人基础模型。 为机器人开发和使用基础模型 (Bommasani et al., 2021) 近来引起了极大关注。一种常见的方法是利用现有的预训练基础模型作为高级黑盒推理模块,并与低级机器人特定策略相结合 (Brohan et al., 2023; Driess et al., 2023; Huang et al., 2023; Liang et al., 2023; Lin et al., 2023; Singh et al., 2023)。这种方法允许机器人使用预训练的基础模型来规划低级技能或运动序列。然而,它假设这些低级策略的可用性以及将它们连接到黑盒基础模型的充分接口。另一种方法是在机器人数据上微调预训练的基础模型以构建视觉-语言-动作 (VLA) 模型 (Black et al., 2024; Brohan et al., 2022, 2023; Cheang et al., 2024; Huang et al., 2024; Kim et al., 2024; Li et al., 2023; Wen et al., 2024; Yang et al., 2025; Ye et al., 2025; Zhen et al., 2024; Zheng et al., 2025)。这些 VLA 模型不是在高级 VLM 规划和低级控制之间强制执行严格的层次结构,而是允许针对下游部署任务进行端到端优化。我们采用类似的方法来训练 GROOT N1,并使用 Eagle-2 模型 (Li et al., 2025) 作为我们的基础视觉语言模型 (VLM)。我们将 VLM 与一个流匹配 (Hu et al., 2024; Lipman et al.; Liu et al., 2022) 动作生成模型以及动作分块 (Zhao et al., 2023) 一起进行微调。与先前使用混合专家架构来桥接基础 VLM 模型和动作生成模型的 VLA 模型 (Black et al., 2024) 不同,我们使用简单的交叉注意力机制。这种方法在我们可以使用的 VLM 模型和动作生成模型的精确架构方面提供了灵活性。此外,我们使用具身特定的状态和动作投影模块,支持不同的机器人具身形态,包括潜行动作 (Ye et al., 2025) 和基于 IDM 的动作 (Baker et al., 2022)。这些投影模块的使用类似于 Octo Model Team et al. (2024) 中的那些,尽管那项工作没有微调 VLM 模型。
机器人学习数据集。 机器人学习的一个核心挑战是缺乏训练通用机器人所需的大规模、多样化和具身数据集。一种常见的方法是使用机器人遥操作 (Al-daco et al., 2024; Dass et al., 2024; Fu et al., 2024; Iyer et al.; Mandlekar et al., 2018, 2019, 2020; Wu et al., 2023; Zhang et al., 2018; Zhao et al., 2023),其中人类使用诸如智能手机或虚拟现实 (VR) 控制器之类的设备来控制机器人执行感兴趣的任务。操作期间的机器人传感器流和机器人控制被记录到数据集中,从而可以收集高质量的任务演示。最近,这种方法通过在较长时间内(例如数月)利用大型人类操作员团队和机器人机队进行了扩展,从而产生了包含数千小时演示的大规模机器人操作数据集 (AgiBot-World-Contributors et al., 2025; Black et al., 2024; Brohan et al., 2022, 2023; Ebert et al., 2022; Lynch et al., 2023; O’Neill et al., 2024)。然而,以这种方式收集数据需要大量的成本和人力。另一项工作,即仪器化人类演示,使用特殊硬件来捕获与机器人相关的观察和动作数据,而无需显式遥操作目标机器人。例如,Chi et al. (2024); Seo et al. (2025) 使用手持式机器人夹爪,Fang et al. (2024) 使用类似机器人的外骨骼,Kareer et al. (2024) 使用特殊眼镜捕捉人类手部运动,这些运动被重新定位为机器人动作数据。这些方法往往能更快地收集数据,尽管与直接机器人遥操作相比,它们与下游机器人存在不匹配。另一条研究路线利用人类视频数据集 (Damen et al., 2018; Goyal et al., 2017; Grauman et al., 2022, 2024; Miech et al., 2019) 作为机器人训练数据的来源,这些数据集数量众多且收集起来比机器人数据容易得多。一些工作 (Karamcheti et al., 2023; Nair et al., 2022; Wu et al., 2023) 使用人类视频数据集预训练表示,然后将其用作在下游机器人数据集上训练策略的特征空间。其他工作 Bharadhwaj et al. (2024,); Ren et al. (2025) 尝试通过视频中运动的中间表示来联合使用人类视频数据和机器人数据。Ye et al. (2025) 表明,仅在人类视频上使用潜行动作预训练 VLA 可以为下游机器人任务带来正向迁移。我们没有依赖单一类型的训练数据,而是开发了能够有效学习来自各种真实世界机器人数据、人类视频数据和合成数据的技术。
机器人中的合成数据生成。 真实世界机器人数据收集需要大量时间和可观的人力成本。相比之下,仿真中的数据收集可以显著提高效率且不那么痛苦,使其成为一个引人注目的替代方案。最近,一些工作 (Dalal et al., 2023; Garrett et al., 2024; Gu et al., 2023; Ha et al., 2023; James et al., 2020; Jiang et al., 2024; Mandlekar et al., 2023; Nasiriany et al., 2024; Wang et al., 2024; Yang et al., 2025) 提出了自动化数据生成流程,可以利用仿真以最少的人力产生数千个任务演示。这使得生成大规模数据集变得容易;然而,由于仿真到现实的差距,利用这些数据集可能具有挑战性。
另一个有前景的途径是使用神经生成模型来增强现有的机器人演示集 (Chen et al., 2023; Mandi et al., 2022; Yu et al., 2023)。然而,先前的工作仅限于利用修复 (in-painting) 或文本到图像扩散模型来增强训练数据。在我们的工作中,我们利用视频生成模型 (Agarwal et al., 2025; Wan Team, 2025) 的最新进展来创建完整的神经轨迹,其规模是前所未有的:约30万条神经轨迹,总计827小时的机器人轨迹。
在我们的模型中,我们使用了由 MimicGen (Mandlekar et al., 2023) 和 DexMimicGen (Jiang et al., 2024) 生成的大型合成仿真数据集,以及具有最先进视频生成模型的神经生成视频数据集。我们与合成生成和真实世界数据协同训练的方式使我们有别于其他大规模 VLA 的努力。
6. 结论
我们提出了 GROOT N1,一个面向通用人形机器人的开放基础模型。GROOT N1 具有双系统模型设计,利用异构训练数据,并支持多种机器人具身形态。我们在仿真基准测试和真实的 GR-1 人形机器人上系统地评估了它作为通用策略的性能。我们的实验证明了其强大的泛化能力,使机器人能够以高数据效率学习各种操作技能。我们希望我们开放的 GROOT-N1-2B 模型,连同其训练数据集和仿真环境,将加速社区在构建和部署野外通用人形机器人方面的进展。