【学习笔记】MimicGen: 基于人类演示的可扩展机器人学习数据生成系统
1. 研究背景与问题
-
领域现状:
- 模仿学习依赖高质量人类演示数据,但数据收集存在瓶颈:
- 专业操作需训练有素的演示者(如手术机器人)
- 长时程任务(如厨房操作)单次演示耗时长达数十分钟
- 跨硬件适配需重复收集数据(如Panda→UR5e)
- 现有解决方案局限:
- 离线数据增强(如[7])难以生成物理合理的交互
- 重放式模仿(如[11])无法实现闭环控制
- 模仿学习依赖高质量人类演示数据,但数据收集存在瓶颈:
-
核心问题:
如何通过算法将有限的人类演示(~200条)泛化为大规模、多样化的机器人训练数据(>50k条),同时保持任务完成的物理合理性和跨场景适应性?
2. 方法创新与技术细节
- 系统架构:
- 关键技术突破:
-
对象中心分段(Object-Centric Segmentation)
- 实现方式:
- 人工标注或自动检测子任务边界(如夹爪接触物体时刻)
- 每个片段关联到特定物体坐标系(如"抓取杯子"片段以杯子坐标系为参考)
- 实现方式:
-
跨场景位姿变换
- 对新场景中的物体Oi′O'_iOi′,通过齐次矩阵变换生成适配轨迹.
- 保持相对运动不变性(如抓取姿态相对于杯子的位姿关系)
-
多硬件兼容性设计
- 通过末端执行器空间(Task Space)统一接口:
- 不同机械臂共享相同的delta-pose动作空间(7DoF:3平移+3旋转+1夹爪)
- 依赖底层控制器处理运动学差异(如Panda的Null-space阻尼控制)
- 通过末端执行器空间(Task Space)统一接口:
-
3. 实验设计与关键结果
-
基准测试配置:
任务类型 代表性任务 难度指标 基础操作 方块堆叠 单次抓取精度<1mm 接触敏感型 齿轮装配 1mm公差插入 长时程 咖啡制备(5子任务) 平均时长>30s 移动操作 移动厨房任务 基座+机械臂协同 -
核心数据对比:
指标 人类演示 (200条) MimicGen生成 (50k条) 平均成功率(D0场景) 42.3% 91.7% 跨硬件泛化能力 需重新收集 直接生成(成功率>80%) 数据收集时间 ~150小时 ~20小时(自动生成) -
关键发现:
- 数据效率:10条人类演示+生成数据训练的策略,性能优于200条纯人类演示(Threading任务98.0% vs 73.3%)
- 硬件迁移:Panda→UR5e的成功率下降仅6.2%(对比人类演示重新收集下降32.1%)
- 长时程优势:Coffee Preparation任务中,生成数据的策略比人类演示训练的策略少47%的中间错误
4. 技术优势与局限
-
突破性优势:
- 零样本硬件适配:通过末端空间解耦,首次实现跨机械臂数据生成(无需重新建模)
- 物理合理性保障:在线执行过滤确保所有生成数据符合动力学约束(对比GAN生成可能违反物理规律)
-
现存局限:
-
动态任务支持不足:
- 当前假设物体静态(如不能处理移动中的杯子)
- 解决方案展望:结合视觉预测模型(如[96])估计运动物体轨迹
-
插值碰撞风险:
- 线性插值可能导致机械臂自碰撞(发生率~8.3%)
- 改进方向:集成RRT-Connect[78]进行关节空间规划
-
5. 应用前景与延伸方向
-
工业落地场景:
- 价值点:减少产线示教时间(预估节省67%调机时间)
-
学术延伸方向:
- 结合大语言模型(LLM)自动分解子任务(替代人工标注)
- 融合强化学习优化生成数据分布(如[107])
6. 总结与资源
- 核心价值:首次实现小样本→大数据的机器人学习范式转变
- 开源资源:
- 代码库:https://github.com/mimicgen
- 数据集:包含18任务50k+轨迹的MimicGen-DB
- 仿真环境:支持Isaac Gym/Mujoco的适配接口