当前位置: 首页 > ds >正文

论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

论文地址:Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

概述:本文提出 RGB-Stacking 基准测试,研究如何仅凭 RGB 摄像头视觉和本体感知,实现机器人对 复杂几何物体的高效堆叠。通过结合仿真专家训练、交互式模仿学习与现实世界离线强化学习,提出的系统成功实现了 从仿真到现实世界的零样本迁移,展现出优秀的泛化能力与鲁棒性。


🎯 背景与动机

尽管近年来机器人抓取与操作任务取得显著进展,但多数研究依然局限于单一抓取任务或立方体等规则物体的堆叠场景。

然而,现实世界物体的堆叠任务通常面临:

  • 不规则几何形状

  • 不稳定接触动力学

  • 多方向抓取与放置挑战

因此,本文旨在推动 从“拾取-放置”向“几何理解与策略堆叠”的迁移,设立更具挑战性的任务基准,并探索高效学习与迁移方法。


1️⃣ RGB-Stacking 基准测试设计

🧱 多样化物体集

  • 共 152 个 程序生成 + 3D 打印物体

  • 基于立方体的变形设计:

    • 4 种主变形轴:多边形、梯形、矩形、平行四边形

    • 组合变形物体用于训练集,主轴物体用于测试集

🧪 任务类型

  1. 技能掌握任务(Skill Mastery)

    • 给定 5 对固定物体组合

    • 需处理精细抓取、重心平衡、角度翻转等操作挑战

  2. 泛化任务(Generalization)

    • 从训练物体学习策略,迁移到测试集中的全新物体组合

✅ 成功判定标准

  • 红色物体堆叠于蓝色物体上

  • 水平误差 < 3cm垂直距离 > 2.5cm

  • 放置后夹爪完全打开


2️⃣ 方法总览:三阶段训练框架

阶段内容技术亮点
① 仿真训练专家策略在仿真中训练状态专家策略使用 MPO 强化学习算法;塑形奖励提升学习效率
② 视觉策略蒸馏蒸馏专家策略至视觉策略采用交互式模仿学习(IIL);域随机化提升迁移鲁棒性
③ 离线强化学习优化用现实数据进一步优化策略BC-IMP 与 CRR-IMP 算法,提升堆叠成功率

亮点细节:

  • 使用 Transformer 架构 表征视觉策略

  • 设置 二进制夹爪动作(抓/放)简化学习难度

  • 利用域随机化适应现实中变化的颜色、质感、光照等属性


3️⃣ 实验结果分析

💻 仿真实验

方法技能掌握任务泛化任务
人类遥操作46.6%-
脚本 Agent43.1%-
状态专家策略(MPO)79.3%68.8%
行为克隆(BC)52.4%-
交互模仿学习(IIL)74.2%-

✅ IIL 显著优于行为克隆:能通过交互纠正策略错误,学习更加稳健。

🤖 现实世界迁移

策略类型技能掌握任务泛化任务
零样本 IIL 策略67.9%51.9%
零样本 + 离线 RL(CRR-IMP)81.6%55.6%

🔍 关键影响因素:

  • 使用 二进制夹爪动作:迁移成功率提升 3 倍(20.7% → 67.9%)

  • Transformer 架构 显著增强泛化能力

  • 离线 RL 效果依赖于高质量数据(仿真迁移策略 > 脚本 Agent)


4️⃣ 关键发现与洞见

✅ 1. 仿真 → 现实零样本迁移是可行的

借助域随机化与 IIL,即使未在真实世界训练,策略依然能稳定迁移并完成任务。

✅ 2. 交互模仿学习优于纯行为克隆

引入 DAgger 风格的交互训练能及时纠正学生策略偏差,使视觉策略更强鲁棒性。

✅ 3. 离线 RL 可显著提升现实世界策略表现

CRR-IMP 能过滤低质量数据,通过优势函数重加权训练样本,有效提升成功率。

✅ 4. 设计细节影响巨大

  • 夹爪控制方式简化了策略学习

  • Transformer 提升了复杂几何场景中的理解与泛化能力


❓关键问题答疑

Q1:RGB-Stacking 有何创新?

  • 提供多样几何物体组合(152 个),覆盖真实场景复杂堆叠需求

  • 超过 5 万次现实评估,远超以往任务规模

  • 兼顾技能掌握与策略泛化两大挑战

Q2:为何能实现仿真到现实的零样本迁移?

  • 域随机化模拟多样现实视觉与物理属性

  • IIL 框架主动纠正错误,提升策略稳定性

  • 简化控制动作空间,降低迁移难度

Q3:离线强化学习为什么有效?

  • 基于仿真迁移策略收集的数据覆盖更多复杂策略

  • CRR-IMP 利用优势函数过滤低效策略,专注高价值行为


✍️ 总结

RGB-Stacking 基准和三阶段策略训练系统展示了机器人在复杂几何场景中实现高效、鲁棒、可泛化堆叠的可能性。该研究为“从仿真到现实”的策略迁移,以及融合视觉与交互式学习的方法,提供了清晰且有效的路径。这项工作不仅扩展了堆叠任务的研究范围,也为后续研究提供了 高难度评测平台与可复现的训练范式

http://www.xdnf.cn/news/16178.html

相关文章:

  • Python机器学习:从零基础到项目实战
  • Netty中AbstractReferenceCountedByteBuf对AtomicIntegerFieldUpdater的使用
  • GRU模型
  • Linux操作系统之线程(六):线程互斥
  • SpringMVC快速入门之核心配置详解
  • 第十二章 用Java实现JVM之结束
  • 网络基础15-16:MSTP +VRRP综合实验
  • linux 环境服务发生文件句柄泄漏导致服务不可用
  • 基于网络爬虫的在线医疗咨询数据爬取与医疗服务分析系统,技术采用django+朴素贝叶斯算法+boostrap+echart可视化
  • CS231n-2017 Lecture5卷积神经网络笔记
  • 【世纪龙科技】电动汽车原理与构造-汽车专业数字课程资源
  • 33、基于JDK17的GC调优策略
  • haproxy七层均衡
  • CanOpen--SDO 数据帧分析
  • Hugging Face 模型的缓存和直接下载有什么区别?
  • 【C++】第十八节—一文万字详解 | map和set的使用
  • 7.22 Java基础 | I/O流【下】
  • 小米视觉算法面试30问全景精解
  • HCIA/IP(一二章)笔记
  • Redis 初识
  • vcs门级仿真(后仿真)指南
  • Linux研学-Tomcat安装
  • 深入解析Hadoop中的Region分裂与合并机制
  • [pdf epub]《软件方法》电子书202507更新下载
  • 如何安装没有install.exe的mysql数据库文件
  • C# 析构函数
  • 虚幻5入门教程:如何在虚幻5中创建一个C++的Plugin
  • Zabbix 6.0+ 使用官方模板监控 Redis 数据库的完整配置指南
  • Linux 内核不能直接访问物理地址,必须通过虚拟地址访问。
  • Java+Vue构建的固定资产内控管理系统,融合移动端便捷与后台管理强大功能,模块完备,提供全量源码,轻松实现资产智能管控