当前位置: 首页 > backend >正文

ICRA 2025 基于触觉反馈的闭环分层控制框架——开放环境下通用门开启的智能规划与操作

在机器人领域,让机器人在开放环境中与日常物品交互一直是个难题,其中开门任务极具挑战性。门的设计、机械结构和推拉方式多种多样,现有方法存在诸多局限。基于运动学的方法依赖已知门模型,面对未知门时难以发挥作用;几何方法提取3D位姿信息生成轨迹,但在不同形状和环境下泛化能力差;基于关键点的方法受限于RGB-D数据采集。端到端模仿学习和强化学习在实际应用中也面临从模拟到现实的迁移问题。虽然大语言模型和视觉语言模型被用于高层规划,但仍依赖视觉数据和预定义模型,难以适应非视觉属性的变化,比如门的内部机制、意外阻力等情况。然而,人类凭借触觉反馈,采用探索-适应策略,能轻松完成开门任务,成功率近乎100%。受此启发,UIUC原文祯教授团队提出了一种触觉感知闭环控制框架来解决这些问题。在这里插入图片描述
https://github.com/TX-Leo/DoorBot/blob/master/DoorBot_ICRA2025.pdf在这里插入图片描述

背景:机器人开门任务的挑战在非结构化环境中实现自主门开启是机器人领域的重要挑战,其核心难点在于门类多样性(如推/拉类型、把手形态、机械结构)与动态环境的不确定性。现有方法存在三大局限性:1、感知依赖单一模态:传统视觉或几何模型难以应对光照变化、遮挡及非视觉属性(如门锁阻力、把手旋转方向)。2、开环控制的脆弱性:基于预定义模型或轨迹的方法无法实时适应意外事件(如门锁卡滞、碰撞),导致成功率骤降。3、泛化能力不足:端到端学习方法需要大量领域数据,而大语言模型在低层动作规划中存在可靠性缺陷。在这里插入图片描述

现有方法在实验室环境成功率较高,但在真实复杂场景中表现显著下降,且无法处理侧向视角抓取或非常规旋转方向。核心创新:触觉反馈驱动的闭环分层控制框架1、分层控制架构设计我们设计了包含6个运动基元(Approach, Grasp, Unlock-lever, Unlock-knob, Open, Traverse)的分层控制架构,通过有限状态机动态调整任务序列。与学习型策略相比,我们的方法将数据效率提升3倍,并支持显式错误处理,如碰撞后回退至Approach阶段。2、视觉-触觉多模态感知我们提出基于Detic目标检测与SAM分割的视觉抓取点修正模型(GUM),利用ResNet-18预测抓取点偏移(dx, dy)与旋转参数R。我们仅使用1,303张网络图像训练该模型,即可在20种未见把手中实现95%抓取成功率。此外,我们创新性地通过关节电流变化特征实现推拉门分类,准确率达98%。3、低成本触觉反馈实现在硬件受限的条件下,我们验证了关节电流信号的可靠性。例如,当机器人尝试旋转已到极限的门把手时,肘关节电流会显著上升,系统通过实时监测这一阈值终止错误动作,并尝试反向旋转。实验验证:从实验室到真实场景
在这里插入图片描述

1、野外环境门开启测试我们在8栋校园建筑的20种未见门(含5种特殊机械锁)上进行了420次测试,实现了90%的总体成功率,较Gemini+VLM基线(50%)提升40%。在30%的初始抓取失败案例中,我们通过3次重试将累计成功率提升至97%。2、消融实验分析我们关闭闭环反馈机制后,成功率降至58%,尤其在旋转方向误判与推拉类型错误场景表现显著下降。此外,我们尝试仅依赖VLM视觉分类时,推拉类型误判率达41%,导致整体成功率降低至64%。3、跨物体泛化能力验证我们进一步测试了12个抽屉/柜门场景,HCL-Door保持88%成功率,验证了框架对广义铰接物体的适应性。我们特别针对非线性轨道抽屉实现了83%成功率,较基线提升37%。结论提出的触觉反馈闭环控制框架HCL-Door,在20种真实门测试中实现90%成功率,较现有方法提升40%。其核心价值在于通过低成本触觉信号实现动态策略调整,突破纯视觉方法的物理交互瓶颈;我们设计的分层状态机架构兼顾任务规划鲁棒性与数据效率,为长周期操作任务提供新范式。未来,我们计划扩展至多机器人协作开门、非刚性门(如布帘)操作等场景,并探索触觉反馈与强化学习的深度融合,进一步提升开放世界的适应性。

http://www.xdnf.cn/news/3678.html

相关文章:

  • 【unity游戏开发入门到精通——UGUI】实现精准点击异形或者不规则图片button按钮
  • 字符串的相关方法
  • 【黑马JavaWeb+AI知识梳理】后端Web基础02 - Web基础
  • 街景主观感知全流程(自建数据集+两两对比程序+Trueskill计算评分代码+训练模型+大规模预测)20
  • Winform(8.常用控件1)
  • 电商平台的订单状态设计流程
  • QT中的QSS---界面美化
  • 时间给了我们什么?
  • 本地服务验证-仙盟创梦IDE-智能编程,编程自动备份+编程审计
  • C++开发指南
  • MyBatis 参数处理全解析
  • AI大模型-RAG到底能做些什么?
  • 变色龙-第16届蓝桥第5次STEMA测评Scratch真题第1题
  • 52、【OS】【Nuttx】【OSTest】setvbuf 测试
  • 正态分布全景解析:理论、推导与应用
  • Linux-sysctl工具解析
  • 《AI大模型应知应会100篇》第44篇:大模型API调用最佳实践(附完整代码模板)
  • GC9D01 和 GC9A01两种TFT 液晶显示驱动芯片
  • Set的局限性
  • C#将Mat或Byte快速转换为Bitmap格式
  • 组件通信-provide、inject
  • maven install时报错:【无效的目标发行版: 17】
  • 多模态大模型轻量化探索-视觉大模型SAM(Segment Anything Model)
  • C++11新特性_标准库_智能指针_std::weak_ptr
  • MATLAB技巧——norm和vecnorm两个函数讲解与辨析
  • Linux的环境变量
  • “会话技术”——Cookie_(2/2)原理与使用细节
  • [更新完毕]2025五一杯C题五一杯数学建模思路代码文章教学:社交媒体平台用户分析问题
  • Linux 信号
  • 反射机制补充