当前位置: 首页 > java >正文

Franka科研新力量——基于异构预训练Transformer的扩展研究

前言:突破机器人领域异构性难题的新路径

在机器人技术领域,训练通用机器人模型面临异构性难题:传统方法需为特定机器人、任务和环境单独收集数据,成本高且易过拟合。

为解决此问题,何恺明团队提出异构预训练Transformer(HPT)架构

本文Franka Research 3机械臂为其中实验载体,通过大规模异构预训练,将不同机器人的本体感觉和视觉输入对齐到共享表示空间,学习任务与本体无关的共享策略表示,显著提升机器人策略的泛化能力。

图片

核心载体与技术框架

Franka Research 3

7 自由度架构设计

精准运动控制能力

丰富的感知系统:内置关节位置、力矩、加速度等多模态本体感受传感器

HPT 技术框架实现跨不同实体和任务的通用策略学习

图片

图2:HPT架构。HPT被模块化为茎、干和头。茎由本体感觉标记器和视觉组成

关键实验历程

异构数据整合与模型架构设计

整合了跨领域异构数据集包括真实机器人遥操作数据(如Open-X Embodiment)、模拟环境数据(Drake、Mujoco等)及人类视频数据(EPIC kitchen等),共52个数据集、270k轨迹和1.55亿样本

模型架构设计:通过HPT架构模块化设计,将Franka Research 3的本体感受(关节角度、末端位姿)与视觉输入(多视角图像)经“茎”模块对齐为固定维度标记序列,再由共享Transformer“主干”处理成通用表示,最终通过“头”模块生成控制动作。

图片

图1:异构预训练概念。它通过实施例特定的标记器(“茎”)将不同的实施例(每个实施例都有自己的本体感觉和视觉传感器)映射到共享的潜在空间上。这将来自不同实施例的异构数据对齐到一个联合表示空间中。这使我们能够在所有异构数据集的联合上训练一个共享的Transformer主干。预训练的Transformer可以转移到一个新的实施例中。

预训练与扩展行为探索

  • 在预训练阶段,研究团队重点探究了模型的扩展特性:

  • 数据规模扩展:从27个数据集、16k轨迹增至52个数据集、270k轨迹,验证损失随数据量增加而稳定下降,彰显HPT对大规模异构数据的良好适应性。

  • 模型容量扩展:模型参数由317万(HPT-Small)增至11亿,批量大小从256调至2048,模型性能随参数规模增长而持续提升,且深度与宽度扩展对性能影响无显著差异。

  • 跨域数据融合:预训练中引入模拟数据与人类视频数据,尽管与真实机器人场景存在差异,但HPT通过特征对齐整合不同来源数据,提升了模型的泛化能力。

图片

图5:数据缩放。我们根据数据集大小和数据集数量进行了HPT实验的缩放。每一分都是一次完整训练的验证损失。(a)我们评估了27个数据集的损失,总轨迹数量从每个数据集最多10个轨迹(总共270个)到每个数据集最大100000个轨迹(总计170k个)不等。我们比较了两种模型大小,HPT-S/L,其中HPT-L是一个更大的模型,用比HPT-S多4倍的令牌训练。(b)我们计算了10个数据集的固定子集和固定数量的epoch的验证损失(2)。我们计算了从HPT-S到HPT-XL的模型尺寸以及从10到52的数据集计数的4次运行的平均值和标准差。

迁移学习与真实场景验证

为验证HPT 在新实体与任务中的迁移能力,研究团队在Franka Research 3 上进行了两类实验:

模拟环境迁移:将预训练模型迁移至Meta-world、RoboMimic 等模拟基准,在抽屉关闭、物体拾取等任务中,仅需 20-100 条轨迹微调,即可实现比从头训练策略高 20% 以上的成功率。

图片

图10:模拟实验的成功率。(a)我们评估了HPT-B到HPT-XL模型在4个不同模拟器基准测试任务上的迁移学习性能。(b)我们与最近Simpler[42]基准测试中的几个多面手模型进行了比较,该模型采用了谷歌GDR实施例。预训练的躯干是从缩放设置中训练出来的。每种方法的成功率是通过150次推广来计算的。

关键发现:Meta-world 多任务模拟环境中,HPT-XL 模型的任务成功率比 No Trunk 基线提升 35%,比从头训练模型提升 28%。

Simpler 基准的 Google EDR 实体任务中,针对 “关闭抽屉”“拾取可乐罐” 等场景,HPT-finetuned 模型成功率达到 76.7%,超越 Octo、RT2-X 等通用模型。

真实世界实验:

针对宠物护理(扫剩食、加水)和装配(开关插入)等精细操作任务,利用Franka Research 3 的高精密控制能力,结合 HPT 预训练模型,在仅 100 次演示数据的情况下,成功实现动态长时程接触任务,成功率显著优于仅预训练视觉编码器的基线模型(如 R3M、Voltron)。

图片

图12:现实世界中的迁移学习。我们在四个任务/两个实施例上评估预训练的HPT。计算每种方法45次试验的平均成功率(标准差)。我们使用HPT-Base的默认预训练设置进行此实验。

以上实验表明,HPT 能够有效整合跨实体、跨模态的大规模异构数据,在模拟与真实场景中均实现了优异的策略迁移性能。

结语

本研究以 Franka Research 3 机械臂为载体,通过异构预训练 Transformer(HPT)架构,成功突破了机器人学习中的异构性瓶颈。Franka Research 3 凭借其高精度控制、模块化设计和丰富感知能力,为 HPT 模型的研发与验证提供了理想平台,成为推动机器人通用学习研究的重要科研力量。

文详情链接:https://arxiv.org/pdf/2409.20537

http://www.xdnf.cn/news/10779.html

相关文章:

  • 智能氮气柜的发展历程和前景展望
  • 从基础原理到Nginx实战应用
  • 架构设计的目标:高内聚、低耦合的本质
  • Pointer Network
  • FreeRTOS,其发展历程详细时间线、由来、历史背景
  • STM32学习之WWDG(原理+实操)
  • Go基础|map入门
  • 2025 Java面试大全技术文章(面试题1)
  • ABP-Book Store Application中文讲解 - Part 6: Authors: Domain Layer
  • (三)动手学线性神经网络:从数学原理到代码实现
  • C++初识—面向对象
  • JavaScript async/await指南
  • 亚远景科技助力东风日产通过ASPICE CL2评估
  • 【数据中心设计】
  • Vehicle HAL(3)--VehicleHalManager 分析
  • 【2025年B卷】OD-100分-斗地主之顺子
  • OD 算法题 B卷【跳格子2】
  • MTK的Download agent是什么下载程序?
  • 网络编程(计算机网络基础)
  • MyBatis 的动态 SQL
  • vSOME/IP与ETAS DSOME/IP通信的问题解决方案
  • malloc 内存分配机制:brk 与 mmap
  • MATLAB实战:四旋翼姿态控制仿真方案
  • AcWing 843:n-皇后问题 ← dfs
  • day45 python预训练模型
  • 机器学习——主成分分析(PCA)
  • React进阶:状态管理选择题
  • 【网络安全】SRC漏洞挖掘思路/手法分享
  • KITTI数据集(计算机视觉和自动驾驶领域)
  • 《前端面试题:CSS对浏览器兼容性》