详解具身智能开源数据集:RH20T
1. 基础信息
数据集名称: RH20T
发布时间:2023.07
发布方:上海交通大学
开源目标:构建大规模、多样化、多模态的机器人操作数据集,推动复杂技能的一步模仿学习与基础模型研究。
数采机器人:使用4种主流机械臂(UR5、Franka、Kuka和Flexiv)、4种夹爪(Dahuan AG95、WSG50、Robotiq-85和Franka)、3种力传感器(OptoForce 、ATI Axia80-M20和Franka),共7种机器人硬件配置组合。
备注:Franka机器人的本体、夹爪和力传感器均为思灵机器人自研产品。
数据集规模:数据集总数据量达20TB,包含超 11 万个高接触度机器人操作序列与等量的11万个人类演示视频,共计超 5000 万帧图像。该数据集包含视觉、触觉、音频等多模态信息,覆盖147种任务(如切割、折叠、旋转等接触密集型操作)与42种技能(涵盖抓取、放置、装配等技能),从日常基础操作到复杂技能均有涉及。平均每项技能包括 750 次机器人操作,为机器人学习与技能优化提供了丰富的实践样本。
备注:147 项任务中,70 个由研究人员自主提出,均为常见且可实现的任务;另外77个则从 RLBench(48个)和 MetaWorld(29个)中选取而来。
图2(a)展示了数据集中不同任务的操作数量分布,呈现相对均匀的分布特征。
图2(b)展示了数据集中每条序列的操作时间统计,多数序列时长为10至100秒。
2. 数据采集与处理
1)数据采集装置:每个平台包含1个带力矩传感器的机械臂、夹爪、1-2个夹爪内置摄像头、8-10个全局摄像头、2个麦克风、触觉设备、踏板及数据采集工作站。
数据集采集平台
2)数据处理:对数据集进行了预处理,以提供统一的数据接口。首先,将所有机器人与力传感器的坐标系对齐,并对不同力传感器进行精准调零;随后,将末端执行器的笛卡尔位姿和力扭矩数据转换至各摄像头的坐标系中。另外,为确保相机校准质量,研究人员对每个场景进行了人工验证。
3. 数据集特点
1)多模态数据
该数据集涵盖视觉、触觉、音频以及本体感知等多模态信息。
-
视觉信息:RGB图像、深度图像及双目红外图像三种相机的视觉信息;
-
触觉信息:提供机器人腕部的六自由度力/扭矩测量,部分序列还包含指尖触觉信息;
-
音频信息:包括夹爪内部与全局环境的声音记录;
-
本体感知信息:涵盖关节角度/扭矩、末端执行器的笛卡尔位姿及夹爪状态。
2)树状层级结构组织
结构组织原则:数据集以任务内部相似性为基础构建树状结构,节点层级反映任务的抽象程度。如下图所示,根节点代表最广泛的任务类别,随着层级下移,节点逐渐细分到具体任务。叶子节点代表最细粒度的任务实例,具有最近共同祖先的叶子节点在语义和执行方式上更相似。
例如:根节点代表最高层级的任务分类,如“插拔操作” 这类任务大类;中间节点则依据任务间的相似性逐层细分,例如从 “插拔插座” 进一步细化为 “插拔 USB 设备”;叶节点作为最底层,对应具体的任务实例,像将 “插拔 USB 设备” 再次细分为 “插拔 USB Type-C 设备” 。
每个任务通过组合不同层级的叶子节点生成数百万个<人类演示,机器人操作> 数据对。例如,两个叶子节点若在较高层级共享共同祖先,其配对数据可体现任务间的泛化性;而低层级的配对则聚焦具体细节。
数据集树状结构示例
3)机器人操作数据与人类演示视频数据配对
RH20T数据集通过树状结构组织之间的任务相似性,并利用跨层级叶节点配对构建密集的多样化数据对,旨在解决机器人操作中视角、场景、硬件差异带来的泛化挑战。这种设计为训练通用型机器人基础模型提供了结构化支持。
-
多模态配对:一个机器人操作序列(红色叶节点)可与多个不同视角、场景、操作者的人类示范视频(绿色叶节点)配对。
-
跨层级配对:通过选择不同层级的共同祖先,可生成数百万对<人类示范,机器人操作>数据。共同祖先越近,叶节点关联性越强(例如“插拔USB-A”与“插拔USB-C”比“插拔插座”更相似)。
另外,研究人员为每个机器人操作序列提供相应的人类演示视频和语言描述,以增强任务语义理解。
参考网址
-
论文链接:https://arxiv.org/abs/2307.00595
-
项目主页:https://rh20t.github.io/
-
数据集:https://rh20t.github.io/#download