当前位置: 首页 > web >正文

详解具身智能开源数据集:RH20T

1. 基础信息

数据集名称: RH20T

发布时间:2023.07

发布方:上海交通大学

开源目标:构建大规模、多样化、多模态的机器人操作数据集,推动复杂技能的一步模仿学习与基础模型研究。

数采机器人:使用4种主流机械臂(UR5、Franka、Kuka和Flexiv)、4种夹爪(Dahuan  AG95、WSG50、Robotiq-85和Franka)、3种力传感器(OptoForce 、ATI Axia80-M20和Franka),共7种机器人硬件配置组合。

备注:Franka机器人的本体、夹爪和力传感器均为思灵机器人自研产品。

图片

数据集规模:数据集总数据量达20TB,包含超 11 万个高接触度机器人操作序列与等量的11万个人类演示视频,共计超 5000 万帧图像。该数据集包含视觉、触觉、音频等多模态信息,覆盖147种任务(如切割、折叠、旋转等接触密集型操作)与42种技能(涵盖抓取、放置、装配等技能),从日常基础操作到复杂技能均有涉及。平均每项技能包括 750 次机器人操作,为机器人学习与技能优化提供了丰富的实践样本。

图片

备注:147 项任务中,70 个由研究人员自主提出,均为常见且可实现的任务;另外77个则从 RLBench(48个)和 MetaWorld(29个)中选取而来。

图片

2(a)展示了数据集中不同任务的操作数量分布,呈现相对均匀的分布特征。

2(b)展示了数据集中每条序列的操作时间统计,多数序列时长为10至100秒。

2. 数据采集与处理

1)数据采集装置:每个平台包含1个带力矩传感器的机械臂、夹爪、1-2个夹爪内置摄像头、8-10个全局摄像头、2个麦克风、触觉设备、踏板及数据采集工作站。

图片

数据集采集平台

2)数据处理:对数据集进行了预处理,以提供统一的数据接口。首先,将所有机器人与力传感器的坐标系对齐,并对不同力传感器进行精准调零;随后,将末端执行器的笛卡尔位姿和力扭矩数据转换至各摄像头的坐标系中。另外,为确保相机校准质量,研究人员对每个场景进行了人工验证。

3.  数据集特点

1)多模态数据

该数据集涵盖视觉、触觉、音频以及本体感知等多模态信息。

  • 视觉信息:RGB图像、深度图像及双目红外图像三种相机的视觉信息;

  • 触觉信息:提供机器人腕部的六自由度力/扭矩测量,部分序列还包含指尖触觉信息;

  • 音频信息:包括夹爪内部与全局环境的声音记录;

  • 本体感知信息:涵盖关节角度/扭矩、末端执行器的笛卡尔位姿及夹爪状态。

图片

2)树状层级结构组织

结构组织原则:数据集以任务内部相似性为基础构建树状结构,节点层级反映任务的抽象程度。如下图所示,根节点代表最广泛的任务类别,随着层级下移,节点逐渐细分到具体任务。叶子节点代表最细粒度的任务实例,具有最近共同祖先的叶子节点在语义和执行方式上更相似。

例如:根节点代表最高层级的任务分类,如“插拔操作” 这类任务大类;中间节点则依据任务间的相似性逐层细分,例如从 “插拔插座” 进一步细化为 “插拔 USB 设备”;叶节点作为最底层,对应具体的任务实例,像将 “插拔 USB 设备” 再次细分为 “插拔 USB Type-C 设备” 。

每个任务通过组合不同层级的叶子节点生成数百万个<人类演示,机器人操作> 数据对。例如,两个叶子节点若在较高层级共享共同祖先,其配对数据可体现任务间的泛化性;而低层级的配对则聚焦具体细节。

图片

数据集树状结构示例

3)机器人操作数据与人类演示视频数据配对

RH20T数据集通过树状结构组织之间的任务相似性,并利用跨层级叶节点配对构建密集的多样化数据对,旨在解决机器人操作中视角、场景、硬件差异带来的泛化挑战。这种设计为训练通用型机器人基础模型提供了结构化支持。

  • 多模态配对:一个机器人操作序列(红色叶节点)可与多个不同视角、场景、操作者的人类示范视频(绿色叶节点)配对。

  • 跨层级配对:通过选择不同层级的共同祖先,可生成数百万对<人类示范,机器人操作>数据。共同祖先越近,叶节点关联性越强(例如“插拔USB-A”与“插拔USB-C”比“插拔插座”更相似)。

另外,研究人员为每个机器人操作序列提供相应的人类演示视频和语言描述,以增强任务语义理解。

参考网址

  • 论文链接:https://arxiv.org/abs/2307.00595

  • 项目主页https://rh20t.github.io/

  • 数据集:https://rh20t.github.io/#download

http://www.xdnf.cn/news/6639.html

相关文章:

  • Maven使用详解:Maven的概述(二)
  • 单片机-STM32部分:18、WiFi模组
  • 真题卷001——算法备赛
  • 小结:JavaScript 模块化工具链
  • 傅里叶变换实战:图像去噪与边缘提取
  • 锚点跳转跟踪#
  • Web-CSS入门
  • ci/cd全流程实操
  • 2025年全国青少年信息素养大赛复赛集训(2):寻找250(题目及解析)
  • Perl测试起步:从零到精通的完整指南
  • 【Python】【OCR识别】 提取图片文字并根据内容智能分类存储
  • C#运算符
  • 大语言模型与多模态模型比较
  • 【笔记】cri-docker.service和containerd
  • 特斯拉虚拟电厂:能源互联网时代的分布式革命
  • [IMX] 01.IVT 表长度计算
  • 考研408《计算机组成原理》复习笔记,第二章(2)数值数据的表示(浮点数篇)
  • 【springboot项目服务假死、内存溢出问题排查】
  • shell-awk
  • TVS管用万用表测量方法详解(含二极管档使用指南)
  • 【微信小程序】webp资源上传失败
  • 告别碎片化!MCP 带来 AI Agent 开发生态的革命性突破
  • Qt之QMessageBox
  • 【RabbitMQ】实现RPC通信的完整指南
  • 浅谈算法中的贪心策略:从直觉到策略的思维跨越
  • ios打包ipa获取证书和打包创建经验分享
  • (独家)SAP CO模块中 销售发票对应的Cost Document中的PSG对象是什么东东??
  • leetcode0621. 任务调度器-medium
  • 论QT6多线程技术
  • linux-配置定时任务