Franka科研新力量——基于异构预训练Transformer的扩展研究
前言:突破机器人领域异构性难题的新路径
在机器人技术领域,训练通用机器人模型面临异构性难题:传统方法需为特定机器人、任务和环境单独收集数据,成本高且易过拟合。
为解决此问题,何恺明团队提出异构预训练Transformer(HPT)架构。
本文以Franka Research 3机械臂为其中实验载体,通过大规模异构预训练,将不同机器人的本体感觉和视觉输入对齐到共享表示空间,学习任务与本体无关的共享策略表示,显著提升机器人策略的泛化能力。
核心载体与技术框架
Franka Research 3
7 自由度架构设计
精准运动控制能力
丰富的感知系统:内置关节位置、力矩、加速度等多模态本体感受传感器
HPT 技术框架:实现跨不同实体和任务的通用策略学习
图2:HPT架构。HPT被模块化为茎、干和头。茎由本体感觉标记器和视觉组成
关键实验历程
异构数据整合与模型架构设计
整合了跨领域异构数据集:包括真实机器人遥操作数据(如Open-X Embodiment)、模拟环境数据(Drake、Mujoco等)及人类视频数据(EPIC kitchen等),共52个数据集、270k轨迹和1.55亿样本
模型架构设计:通过HPT架构模块化设计,将Franka Research 3的本体感受(关节角度、末端位姿)与视觉输入(多视角图像)经“茎”模块对齐为固定维度标记序列,再由共享Transformer“主干”处理成通用表示,最终通过“头”模块生成控制动作。
图1:异构预训练概念。它通过实施例特定的标记器(“茎”)将不同的实施例(每个实施例都有自己的本体感觉和视觉传感器)映射到共享的潜在空间上。这将来自不同实施例的异构数据对齐到一个联合表示空间中。这使我们能够在所有异构数据集的联合上训练一个共享的Transformer主干。预训练的Transformer可以转移到一个新的实施例中。
预训练与扩展行为探索
-
在预训练阶段,研究团队重点探究了模型的扩展特性:
-
数据规模扩展:从27个数据集、16k轨迹增至52个数据集、270k轨迹,验证损失随数据量增加而稳定下降,彰显HPT对大规模异构数据的良好适应性。
-
模型容量扩展:模型参数由317万(HPT-Small)增至11亿,批量大小从256调至2048,模型性能随参数规模增长而持续提升,且深度与宽度扩展对性能影响无显著差异。
-
跨域数据融合:预训练中引入模拟数据与人类视频数据,尽管与真实机器人场景存在差异,但HPT通过特征对齐整合不同来源数据,提升了模型的泛化能力。
图5:数据缩放。我们根据数据集大小和数据集数量进行了HPT实验的缩放。每一分都是一次完整训练的验证损失。(a)我们评估了27个数据集的损失,总轨迹数量从每个数据集最多10个轨迹(总共270个)到每个数据集最大100000个轨迹(总计170k个)不等。我们比较了两种模型大小,HPT-S/L,其中HPT-L是一个更大的模型,用比HPT-S多4倍的令牌训练。(b)我们计算了10个数据集的固定子集和固定数量的epoch的验证损失(2)。我们计算了从HPT-S到HPT-XL的模型尺寸以及从10到52的数据集计数的4次运行的平均值和标准差。
迁移学习与真实场景验证
为验证HPT 在新实体与任务中的迁移能力,研究团队在Franka Research 3 上进行了两类实验:
模拟环境迁移:将预训练模型迁移至Meta-world、RoboMimic 等模拟基准,在抽屉关闭、物体拾取等任务中,仅需 20-100 条轨迹微调,即可实现比从头训练策略高 20% 以上的成功率。
图10:模拟实验的成功率。(a)我们评估了HPT-B到HPT-XL模型在4个不同模拟器基准测试任务上的迁移学习性能。(b)我们与最近Simpler[42]基准测试中的几个多面手模型进行了比较,该模型采用了谷歌GDR实施例。预训练的躯干是从缩放设置中训练出来的。每种方法的成功率是通过150次推广来计算的。
关键发现:在Meta-world 多任务模拟环境中,HPT-XL 模型的任务成功率比 No Trunk 基线提升 35%,比从头训练模型提升 28%。
在Simpler 基准的 Google EDR 实体任务中,针对 “关闭抽屉”“拾取可乐罐” 等场景,HPT-finetuned 模型成功率达到 76.7%,超越 Octo、RT2-X 等通用模型。
真实世界实验:
针对宠物护理(扫剩食、加水)和装配(开关插入)等精细操作任务,利用Franka Research 3 的高精密控制能力,结合 HPT 预训练模型,在仅 100 次演示数据的情况下,成功实现动态长时程接触任务,成功率显著优于仅预训练视觉编码器的基线模型(如 R3M、Voltron)。
图12:现实世界中的迁移学习。我们在四个任务/两个实施例上评估预训练的HPT。计算每种方法45次试验的平均成功率(标准差)。我们使用HPT-Base的默认预训练设置进行此实验。
以上实验表明,HPT 能够有效整合跨实体、跨模态的大规模异构数据,在模拟与真实场景中均实现了优异的策略迁移性能。
结语
本研究以 Franka Research 3 机械臂为载体,通过异构预训练 Transformer(HPT)架构,成功突破了机器人学习中的异构性瓶颈。Franka Research 3 凭借其高精度控制、模块化设计和丰富感知能力,为 HPT 模型的研发与验证提供了理想平台,成为推动机器人通用学习研究的重要科研力量。
论文详情链接:https://arxiv.org/pdf/2409.20537