当前位置：首页 > java >正文

Franka科研新力量——基于异构预训练Transformer的扩展研究

java 2025/7/5 21:49:54

前言：突破机器人领域异构性难题的新路径

在机器人技术领域，训练通用机器人模型面临异构性难题：传统方法需为特定机器人、任务和环境单独收集数据，成本高且易过拟合。

为解决此问题，何恺明团队提出异构预训练Transformer（HPT）架构。

本文以Franka Research 3机械臂为其中实验载体，通过大规模异构预训练，将不同机器人的本体感觉和视觉输入对齐到共享表示空间，学习任务与本体无关的共享策略表示，显著提升机器人策略的泛化能力。

核心载体与技术框架

Franka Research 3

7 自由度架构设计

精准运动控制能力

丰富的感知系统：内置关节位置、力矩、加速度等多模态本体感受传感器

HPT 技术框架：实现跨不同实体和任务的通用策略学习

图2:HPT架构。HPT被模块化为茎、干和头。茎由本体感觉标记器和视觉组成

关键实验历程

异构数据整合与模型架构设计

整合了跨领域异构数据集：包括真实机器人遥操作数据（如Open-X Embodiment）、模拟环境数据（Drake、Mujoco等）及人类视频数据（EPIC kitchen等），共52个数据集、270k轨迹和1.55亿样本

模型架构设计：通过HPT架构模块化设计，将Franka Research 3的本体感受（关节角度、末端位姿）与视觉输入（多视角图像）经“茎”模块对齐为固定维度标记序列，再由共享Transformer“主干”处理成通用表示，最终通过“头”模块生成控制动作。

图1:异构预训练概念。它通过实施例特定的标记器(“茎”)将不同的实施例(每个实施例都有自己的本体感觉和视觉传感器)映射到共享的潜在空间上。这将来自不同实施例的异构数据对齐到一个联合表示空间中。这使我们能够在所有异构数据集的联合上训练一个共享的Transformer主干。预训练的Transformer可以转移到一个新的实施例中。

预训练与扩展行为探索

在预训练阶段，研究团队重点探究了模型的扩展特性：
数据规模扩展：从27个数据集、16k轨迹增至52个数据集、270k轨迹，验证损失随数据量增加而稳定下降，彰显HPT对大规模异构数据的良好适应性。
模型容量扩展：模型参数由317万（HPT-Small）增至11亿，批量大小从256调至2048，模型性能随参数规模增长而持续提升，且深度与宽度扩展对性能影响无显著差异。
跨域数据融合：预训练中引入模拟数据与人类视频数据，尽管与真实机器人场景存在差异，但HPT通过特征对齐整合不同来源数据，提升了模型的泛化能力。

图5:数据缩放。我们根据数据集大小和数据集数量进行了HPT实验的缩放。每一分都是一次完整训练的验证损失。(a)我们评估了27个数据集的损失,总轨迹数量从每个数据集最多10个轨迹(总共270个)到每个数据集最大100000个轨迹(总计170k个)不等。我们比较了两种模型大小,HPT-S/L,其中HPT-L是一个更大的模型,用比HPT-S多4倍的令牌训练。(b)我们计算了10个数据集的固定子集和固定数量的epoch的验证损失(2)。我们计算了从HPT-S到HPT-XL的模型尺寸以及从10到52的数据集计数的4次运行的平均值和标准差。

迁移学习与真实场景验证

为验证HPT 在新实体与任务中的迁移能力，研究团队在Franka Research 3 上进行了两类实验：

模拟环境迁移：将预训练模型迁移至Meta-world、RoboMimic 等模拟基准，在抽屉关闭、物体拾取等任务中，仅需 20-100 条轨迹微调，即可实现比从头训练策略高 20% 以上的成功率。

图10:模拟实验的成功率。(a)我们评估了HPT-B到HPT-XL模型在4个不同模拟器基准测试任务上的迁移学习性能。(b)我们与最近Simpler[42]基准测试中的几个多面手模型进行了比较,该模型采用了谷歌GDR实施例。预训练的躯干是从缩放设置中训练出来的。每种方法的成功率是通过150次推广来计算的。

关键发现：在Meta-world 多任务模拟环境中，HPT-XL 模型的任务成功率比 No Trunk 基线提升 35%，比从头训练模型提升 28%。

在Simpler 基准的 Google EDR 实体任务中，针对 “关闭抽屉”“拾取可乐罐” 等场景，HPT-finetuned 模型成功率达到 76.7%，超越 Octo、RT2-X 等通用模型。

真实世界实验：

针对宠物护理（扫剩食、加水）和装配（开关插入）等精细操作任务，利用Franka Research 3 的高精密控制能力，结合 HPT 预训练模型，在仅 100 次演示数据的情况下，成功实现动态长时程接触任务，成功率显著优于仅预训练视觉编码器的基线模型（如 R3M、Voltron）。

图12:现实世界中的迁移学习。我们在四个任务/两个实施例上评估预训练的HPT。计算每种方法45次试验的平均成功率(标准差)。我们使用HPT-Base的默认预训练设置进行此实验。

以上实验表明，HPT 能够有效整合跨实体、跨模态的大规模异构数据，在模拟与真实场景中均实现了优异的策略迁移性能。

结语

本研究以 Franka Research 3 机械臂为载体，通过异构预训练 Transformer（HPT）架构，成功突破了机器人学习中的异构性瓶颈。Franka Research 3 凭借其高精度控制、模块化设计和丰富感知能力，为 HPT 模型的研发与验证提供了理想平台，成为推动机器人通用学习研究的重要科研力量。

论文详情链接：https://arxiv.org/pdf/2409.20537

查看全文

http://www.xdnf.cn/news/10779.html