2018~2025:英伟达在具身智能机器人领域的关键布局详解
英伟达首席执行官黄仁勋曾多次强调“AI的下一个浪潮将是具身智能”。基于此洞察,英伟达从2018年开始,便前瞻性布局具身智能领域,致力于打造一个完整的技术闭环与底层开发生态体系。
英伟达具身智能领域关键布局(机器觉醒时代制表)
2018年具身智能布局:初步构建机器人开发平台
1. 2018年6月,英伟达推出NVIDIA Isaac平台
2018年6月:英伟达推出NVIDIA Isaac机器人开发平台,该平台包含硬件(Jetson Xavier计算平台)和一系列软件工具(包括Isaac SDK、Isaac IMX和Isaac Sim), 初步构建机器人开发、训练与验证的基础设施。
1)硬件
Jetson Xavier:专为机器人设计的计算平台,其中,Xavier SoC芯片内部集成超90亿颗晶体管,可实现每秒超30万亿次浮点运算。该芯片搭载六种高性能处理器,包括 Volta 架构 Tensor 核心 GPU(1个)、八核心 ARM64 CPU(1个)、 深度学习加速器DLA(2个),以及图像处理器(1个)、视觉加速器(1个)和视频编码器和解码器(各1个)。凭借强大的硬件配置,Jetson Xavier 能够同时实时运行数十种算法,覆盖传感器处理、测距、定位与绘图、视觉感知及路径规划等多种任务。
Jetson Xavier架构框图(图片来源:英伟达)
2)软件
NVIDIA为Jetson Xavier 提供了一整套覆盖模拟、训练、验证及部署全流程的机器人学习软件工具,具体包括:
-
Isaac SDK:是一套包含应用程序接口(API)与工具的运行时框架,配备全面加速的库,用于开发机器人算法软件。
-
Isaac IMX(Intelligent Machine Acceleration):IMX即智能机器加速应用程序,是一套由英伟达开发的机器人算法软件集合。旨在为机器人开发提供预开发的、优化的算法软件,涵盖了机器人应用中的多个领域,如传感器处理、视觉与感知、定位与绘图等。
-
Isaac Sim:为开发者提供高度逼真的虚拟仿真环境,用于自主训练,并支持使用Jetson Xavier进行硬件在环测试。
参考资料
1. NVIDIA Isaac Sim 工作原理
https://developer.nvidia.cn/isaac/sim
2022年具身智能布局:技术迭代与生态拓展
2. 2022年3月:英伟达推出Isaac Nova Orin参考平台
2022年3月,英伟达在 GTC 大会上正式推出了 Isaac Nova Orin参考平台,这是一款专为自主移动机器人(AMR)设计的计算和传感器平台,由多达两台 Jetson AGX Orin 计算机(≥550TOPS )和一套适用于新一代 AMR 的传感器套件组,旨在加速 AMR 的开发与部署。
其中,Jetson AGX Orin 配备 NVIDIA Ampere 架构 GPU和Arm Cortex-A78AE CPU,以及新一代深度学习和视觉加速器。
Jetson AGX Orin系列基本参数信息(机器觉醒时代制表)
传感器套件包括6摄像头(2深度感知摄像头 + 4广角摄像头)+ 3激光雷达(2个导航2D激光雷达和1个用于地图构建的3D激光雷达(选配))+ 8超声波雷达。
备注:后续扩展—— 2024 年 3 月,英伟达与九号公司合作发布 Nova Orin 开发者套件,针对 Nova Carter AMR 平台优化,预装 Isaac Perceptor 堆栈,进一步简化二次开发流程。
3. 2022年11月:英伟达发布具身智能体MinDojo
2022年11月22日,英伟达发布了具有互联网规模知识的开放式具身智能体 MinDojo。它是一个建立在Minecraft 游戏之上的新框架,用于具身智能体研究。
该模型构建了具身智能体最关键的三个要素:支持多种任务和目标的环境、大规模的多模态知识数据库以及灵活且可扩展的智能体架构,为具身智能体的研究和发展提供了重要的基础和框架。
备注:MineCraft(《我的世界》)是一款由微软旗下 Mojang Studios 开发的沙盒游戏。
参考资料
1. NVIDIA Isaac Nova Orin
https://zhuanlan.zhihu.com/p/555258658
2023年具身智能布局:生成式AI与机器人融合
4. 2023年5月:英伟达发布智能体 —— Voyager
2023年5月,英伟达与加州理工学院、德克萨斯大学奥斯汀分校、斯坦福大学、亚利桑那州立大学等多所高校的研究者联合发布智能体—— Voyager。
Voyager智能体包含三个核心组件:自动学习路径、迭代提示机制和技能库。
Voyager智能体工作原理
Voyager是一个由 LLM 驱动的可终身学习的具身智能体,展示了大语言模型在驱动智能体进行复杂任务学习和探索方面的强大能力,为人工智能的发展提供了新的思路和方向。它在MineCraft虚拟环境中能够自主探索、根据环境和自身状态生成任务、不断学习新技能并保存到技能库中,具备具身智能体所要求的与环境交互并学习进化的特征。
备注:MineCraft(《我的世界》)是一款由微软旗下 Mojang Studios 开发的沙盒游戏。
5. 2023年10月,英伟达发布Eureka
2023年10月,英伟达在GTC 大会上发布了Eureka。Eureka是一个专注于机器人训练的 AI 系统,主要功能是利用生成式 AI 和强化学习方法,自动生成和优化奖励函数,以提高机器人的训练效率和性能。
Eureka 工作原理(图片来源:英伟达)
工作原理:Eureka以GPT - 4 大型语言模型为驱动,采用混合梯度架构 —— 外循环运行 GPT - 4 来细化奖励函数,内循环运行强化学习来训练机器人控制器。在上图中,Eureka以未经修改的环境源代码和语言任务描述作为上下文,通过编码大语言模型零样本生成可执行的奖励函数。随后,该框架在奖励函数采样、基于GPU加速的奖励评估以及奖励反思之间进行迭代优化,逐步提升奖励函数的输出质量。
应用场景:Eureka 主要应用于机器人的复杂任务训练,特别是那些需要精细控制和高级技能的任务,如机器人的灵巧操作、复杂动作的学习等。
参考论文
1. Voyager: An Open-Ended Embodied Agent with Large Language Models
2. Eureka: Human-Level Reward Design via Coding Large Language Models
6. 2024年2月,英伟达成立具身智能体研究实验室GEAR
2024年2月:英伟达成立通用具身智能体研究实验室(GEAR,Generalist Embodied Agent Research),由 Jim Fan 与 Yuke Zhu 领衔,致力于为虚拟和物理世界中的具身智能体构建基础模型,重点聚焦多模态基础模型、通用型机器人模型、虚拟世界智能体及仿真合成数据四大研究领域。
7. 2024年3月,英伟达发布通用基础模型Project GR00T
2024年3月:在GTC 开发者大会上,英伟达发布人形机器人通用基础模型 Project GR00T,其通过自然语言文本/语音理解以及对人类行为视频和真人演示的模仿学习,加速人形机器人学习协调各种技能,使其能够适应并与现实世界进行互动。
英伟达发布人形机器人通用基础模型Project GR00T(图片来源:英伟达)
此外,据了解,英伟达还宣布与1X Technologies、Agility Robotics、Apptronik、Boston Dynamics、Figure AI、Sanctuary AI、宇树科技、傅利叶智能和小鹏鹏行等多家人形机器人企业达成合作,共同联合开发 “GR00T” 项目。
同时,在大会上,英伟达还发布了专为人形机器人打造的计算平台—— Jetson Thor,支持多模态AI模型并行计算(如视觉、语音、运动规划)。
Thor SoC 芯片搭载基于 Blackwell 架构的GPU,集成 Transformer 引擎,直接支持FP4(4位浮点)和FP8(8位浮点)运算,显著降低大规模Transformer模型(如GPT、BERT)的推理功耗与延迟。另外,GPU分为3个独立集群,支持通过MIG技术灵活划分计算资源,实现多任务并行与资源隔离。
在CPU与内存性上,Thor SoC芯片配备14核CPU(含AE扩展核心),性能达前代2.6倍,强化实时控制(如电机驱动、传感器融合)。内存带宽容量翻倍至128GB,带宽达273GB/s,支持超大规模模型本地加载与高速数据吞吐。
此外,Jetson Thor还集成了功能安全岛、多种传统加速器,如 ISP、视频编解码器、视觉计算引擎(PVA)、光流加速器(OFA)等,提供跨加速器(PVA/OFA)的统一开发框架 Vision Programming Interface(VPI),简化了设计和集成工作。
英伟达Thor SoC芯片架构框图(图片来源:英伟达)
此外,英伟达还宣布对机器人Isaac开发平台进行了重要升级:
1)推出新的基础模型和相关工具
-
Isaac Manipulator :基于Isaac ROS 构建,由NVIDIA CUDA加速库、AI 模型和面向机器人开发者的参考工作流组成。它旨在帮助机器人软件开发者构建能够感知、理解环境并与之交互的 AI 机器人手臂或操纵器,支持实现运动规划、物体检测以及姿态估计和跟踪等功能。
NVIDIA Isaac Manipulator 工作原理(图片来源:英伟达)
-
Isaac Perceptor:基于Isaac ROS 构建,是NVIDIA CUDA 加速库、AI 模型和参考工作流的集合,用于开发自主移动机器人(AMR),为可靠的视觉测距和 3D 环绕视觉提供支持,用于障碍物检测和占用率映射。旨在帮助AMR在仓库、工厂和户外环境等非结构化环境中进行感知、定位和操作。
NVIDIA Isaac Perceptor工作原理(图片来源:英伟达)
2)强化仿真能力
-
Isaac Lab:是一个基于Isaac Sim 构建的轻量级开源框架,使用 NVIDIA PhysX 以及基于物理性质的 NVIDIA RTX 渲染提供高保真物理模拟。它弥合了高保真模拟和基于感知的机器人训练之间的差距。同时,它还专门针对机器人学习工作流进行优化,旨在简化机器人研究中的常见任务,例如强化学习、模仿学习和运动规划。
NVIDIA Isaac Lab 架构框图(图片来源:英伟达)
-
OSMO:是一种云原生的工作流编排平台,用于在本地、私有云和公有云中扩展复杂、多阶段和多容器的机器人工作负载,有助于用户在Isaac 平台上编排、可视化和管理一系列机器人开发任务。其中包括生成合成数据、训练模型、进行强化学习,以及为人形机器人、自主移动机器人 (AMR) 和工业机械手实施软件在环测试等。
NVIDIA OSMO 工作原理(图片来源:英伟达)
参考资料:
1. 深度揭秘NVIDIA 第三代计算机Jetson Thor
https://mp.weixin.qq.com/s/XnONhdCEjN3YC1Y9guSH1w
2. NVIDIA Isaac AI 机器人开发平台
https://developer.nvidia.cn/isaac
2025年具身智能布局:开源人形机器人基础模型
8. 2025年1月,英伟达推出 Cosmos和Isaac GR00T Blueprint
2025年1月, 在CES上,英伟达宣布推出世界基础模型平台 Cosmos和合成运动生成工具 Isaac GR00T Blueprint。
1)世界基础模型平台Cosmos
NVIDIA Cosmos是英伟达推出的生成式世界基础模型平台。平台集成了生成式世界基础模型(WFM)、高级标记器(Cosmos Tokenizer)、安全护栏系统(Guardrails)和加速视频处理管道(NeMo Curator),帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖。
Cosmos 能接受文本、图像或视频的提示,生成高度仿真的虚拟世界状态,加速自动驾驶和机器人的物理AI开发。同时,Cosmos 还提供了安全防护机制,确保数据的安全与合规。开发者可以通过微调 Cosmos 模型来创建定制化的AI模型,满足特定的应用需求。
该基础世界模型借助2000万小时的机器人和自动驾驶数据进行预训练,以生成基于物理的世界状态。该模型包括一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。
-
Cosmos Predict:是一种能够通过文本、图像和视频等多模态输入生成虚拟世界状态的通用模型。它使用基于Transformer 的架构构建,支持多帧生成,在给定开始和结束输入图像的情况下,可预测中间行为或运动轨迹。另外,该模型基于9000T机器人与自动驾驶数据的token进行训练,专为后训练而打造。
-
Cosmos Transfer:通过结构化视觉或几何数据输入,如分割图、深度图、激光雷达扫描、姿态估计图和轨迹图等,以生成可控、逼真的视频输出。它采用ControlNet 架构,利用时空控制图来动态对齐合成和真实世界的表示,确保精确的空间对齐和场景构成。它是一种世界到世界的迁移模型,旨在弥合模拟环境和真实世界环境之间的感知差异。
Cosmos Transfer工作原理(图片来源:英伟达)
-
Cosmos Reason:这是一款具备完全可定制的多模态推理模型,基于对空间和时间的理解而构建,因此具有时空感知能力,使用思维链推理来理解视频数据,并能够预测交互结果用于规划响应。另外,Cosmos Reason模型分为预训练、通用监督微调(SFT)、和强化学习(RL)三个阶段进行训练,增强其在现实世界场景中推理、预测和响应决策的能力。
NVIDIA Cosmos 应用案例:合成数据生成(SDG)、策略模型初始化、策略模型评估和多视图生成。
2)合成运动生成工具:Isaac GR00T Blueprint
Isaac GR00T Blueprint提供了一套完整的解决方案,包括机器人基础模型、数据管道和仿真框架,为通用机器人的训练提供了一个数字孪生训练场,可帮助开发者生成海量的合成运动数据,以便通过模仿学习来训练机器人。
Isaac GR00T Blueprint合成运动生成流程图(图片来源:英伟达)
9. 2025年3月,英伟达推出人形机器人基础模型 GR00T N1
2025年3月,在GTC开发者大会上,英伟达推出全球首个开源、可定制的通用人形机器人基础模型 GR00T N1。
GR00T N1是一个视觉-语言-动作(VLA)模型,采用双系统架构。“系统1”是基于扩散变换器(DiT)的动作模块。它通过交叉注意力机制关注视觉语言模型(VLM)的输出Tokens,并采用具身专用的编码器和解码器来处理可变维度的状态与动作,实现运动生成。它以更高的频率(120Hz)生成闭环电机动作。
“系统2”是基于视觉-语言模型(VLM)的推理模块,在英伟达L40 GPU上以10Hz运行,处理机器人的视觉感知和语言指令,以解释环境并理解任务目标。
“系统1”和“系统2”都是基于Transformer构建的神经网络,二者在训练过程中紧密耦合、联合优化,以实现推理与执行的高效协同。
GR00T N1模型架构示意图
GR00T N1模型预训练所使用的数据:真实机器人轨迹、合成数据以及人类视频。
用于机器人基础模型训练的“数据金字塔”
合作案例:1X Technologies、Agility Robotics、Boston Dynamics、傅利叶等机器人公司已接入GR00T N1,利用该基础模型及其配套工具链开发新一代机器人产品,并在不同的应用场景中进行落地实践。
参考资料:
1. NVIDIA Cosmos 是什么?
https://www.nvidia.cn/ai/cosmos/
2. 论文:GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
结语
英伟达在具身智能领域的布局,正以「底层算力驱动者+ 开发生态构建者」的定位重塑具身智能机器人产业格局。其通过Jetson系列芯片提供高性能边缘计算支持,结合 Isaac/Omniverse 开发平台与 GR00T 通用基础大模型,构建了从硬件到软件的全栈技术闭环。
在战略层面,英伟达通过投资Figure AI、与波士顿动力等头部企业合作,提前卡位人形机器人赛道。黄仁勋提出的“所有移动的机器终将自主”愿景,正借助技术深度整合稳步落地。例如,英伟达将Omniverse 数字孪生技术、Cosmos物理世界模型与 Isaac Sim 仿真框架有机结合,构建起完备的物理 AI 体系。这一体系支持机器人在虚拟环境中完成行为验证与能力迭代,最终实现从虚拟到现实场景的无缝迁移,大幅提升具身智能机器人开发效率与应用适配性。
在商业化层面,英伟达凭借硬件标准化与软件生态开放策略,吸引产业链上下游协同,加速构建行业标准。从亚马逊物流场景与丰田制造场景优化,再到与微软、OpenAI 开展投资合作,英伟达正通过以“算力+模型+工具”三位一体的模式,逐步确立自身在具身智能时代核心基础设施供应商的地位。