当前位置: 首页 > news >正文

AAAI 2025丨具身智能+多模态感知如何精准锁定目标

关注gongzhonghao【计算机sci论文精选】!

具身智能指通过物理载体与环境实时交互的智能系统,具备感知、决策与执行一体化能力,实现“大脑思考+身体行动”的协同。

2025年首次被写入中国《政府工作报告》作为未来产业,全球人形机器人新品年超百款。中国在“天工”机器人奔跑控制、“慧思开物”通用平台等领域领先,技术加速从实验室迈向工业制造、家庭服务等场景。今天小图给大家精选3篇AAAI有关具身智能方向的论文,请注意查收!

论文一:DigitalLLaVA: Incorporating Digital Cognition Capability for Physical World Comprehension in Multimodal LLMs

方法:

文章首先通过数字载体映射方法,利用对象级文本-图像对来增强模型对物理数字载体的理解;其次,采用32位浮点数模拟方法,将数字预测转化为整体的0/1二进制分类问题,显著减少了搜索空间,使预测过程更加稳健和直接;最后,通过大量实验验证了该方法在多个领域的有效性和适用性。

图片

创新点:

  • 首次识别并分析了当前多模态大语言模型在物理数字认知方面的局限性,为后续改进提供了明确的方向。

  • 提出了DigitalLLaVA方法,通过数字载体映射和32位浮点数模拟两个步骤,明确地将数字认知能力注入多模态大语言模型。

  • 在多个数据集上进行了广泛的实验,证明了该方法能够显著提高模型对物理数字的识别精度,达到±0.001的准确度。

图片

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/32522

图灵学术论文辅导

论文二:EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs

方法:

文章首先构建了EMHI数据集,通过真实VR设备采集了包含立体图像和全身IMU信号的数据,并利用多视角相机系统和OptiTrack进行时空同步和姿态注释。接着,提出了MEPoser方法,其多模态融合编码器分别对图像和IMU数据进行特征提取并融合,时间特征编码器利用LSTM模块捕捉时间信息,最后通过MLP回归头估计SMPL模型的姿态和形状参数。实验表明,该方法在多模态数据融合方面具有显著优势,有效提升了人体姿态估计的准确性和鲁棒性。

图片

创新点:

  • 首次构建了一个大规模真实VR设备上的多模态第一人称人体运动数据集EMHI,填补了该领域的空白。

  • 提出了一种新的基线方法MEPoser,实现了在独立VR头显上实时人体姿态估计,显著提升了姿态估计的准确性和鲁棒性。

  • 通过广泛的实验验证了EMHI数据集和MEPoser方法的有效性,为未来的研究和实际应用提供了重要的参考。

图片

论文链接:

https://ojs.aaai.org/index.php/AAAI/article/view/32294

图灵学术论文辅导

论文三:FLAME: Learning to Navigate with Multimodal LLM in Urban Environments

方法:

文章首先基于Flamingo架构构建FLAME,通过改进的跨注意力机制高效处理多模态输入。接着,通过三阶段微调技术逐步提升模型的导航能力:第一阶段进行单感知微调,学习街景描述;第二阶段进行多感知微调,学习路线总结;第三阶段在VLN数据集上进行端到端训练。最后,利用GPT-4自动生成合成数据,为模型训练提供丰富的标注信息,显著提升了模型的性能。

图片

创新点:

  • FLAME是首个专门针对城市VLN任务设计的基于MLLM的智能体,有效解决了现有LLM在导航任务中的局限性。

  • 提出了一种三阶段微调技术,通过街景描述、路线总结和端到端导航训练,逐步提升模型的导航能力。

  • 利用GPT-4自动生成街景描述、路线总结和导航理由,为模型训练提供了丰富的合成数据,进一步增强了模型的推理能力。

图片

论文链接:

https://arxiv.org/abs/2408.11051

本文选自gongzhonghao【计算机sci论文精选

http://www.xdnf.cn/news/1275067.html

相关文章:

  • BGP笔记整理
  • CST MATLAB 联合仿真超材料开口谐振环单元
  • PWM波的频谱分析及matlab 验证[电路原理]
  • 企业高性能web服务器——Nginx
  • PySpark
  • 【redis初阶】------List 列表类型
  • Mysql 8.0 新特性
  • drippingblues靶机通关练习笔记
  • 搭建本地 Git 服务器
  • nginx-主配置文件
  • Flask多进程数据库访问问题详解
  • Words or Vision Do Vision-Language Models Have Blind Faith in Text
  • Baumer高防护相机如何通过YoloV8深度学习模型实现道路坑洼的检测识别(C#代码UI界面版)
  • 基于FFmpeg的B站视频下载处理
  • 配置timer控制 IO的输出(STC8)
  • 浏览器CEFSharp88+X86+win7 之js交互开启(五)
  • 【LeetCode】102 - 二叉树的层序遍历
  • MySQL 处理重复数据详细说明
  • DBAPI 实现不同角色控制查看表的不同列
  • SQL约束:数据完整性的守护者
  • 【面试场景题】异地多活改造方案
  • 实现两个开发板的串口通讯(基于STC8实现)
  • Oracle lgwr触发条件
  • c语言常见错误
  • 深入解析微服务分布式事务的原理与优化实践
  • 【代码随想录day 16】 力扣 513.找树左下角的值
  • Linux 路由子系统深度分析:框架、实现与代码路径
  • MariaDB 数据库管理
  • 活动策划(展会、年会),在线工具能快速出邀请函不?
  • Python 实例属性和类属性