当前位置: 首页 > news >正文

技术视界 | 具身感知与生成大模型:开启智能新时代(上)

在生成式人工智能席卷全球的当下,下一场重大技术变革,或许将不再发生在“屏幕内”的文本生成,而是迈向现实世界中的感知与行动。这一趋势的核心,即是近年来持续升温的技术前沿概念——具身智能(Embodied Intelligence)

本文基于复旦大学陈涛教授在“格物”具身智能仿真平台发布会上的演讲整理而成,深入解析具身感知与生成大模型的核心框架、关键突破与发展路径,勾勒出一幅未来智能体“动起来”的技术全景。

什么是“具身智能”?重新定义AI的边界

如果说传统人工智能擅长“理解语言与图像”,那么具身智能的目标则更进一步:让AI“拥有身体”并“与环境交互”。它不仅要“想得对”,还要“做得到”。根据中国信息通信研究院的定义,具身智能是一种以物理实体(如机器人)为载体,赋予其感知、规划、控制与执行能力的人工智能系统。

就像人类一样,机器人可以通过自身的 “大脑”“小脑” 和 “身体” 协同运作,实现从感知环境到规划行动、再到精准执行的全过程。

“大脑”层

以多模态大模型驱动感知理解与任务规划;

“小脑”层

负责高频动作控制与反馈执行;

“身体”层

实体机器人硬件,包括传感器、执行器等部件。

全球竞逐:从VoxPoser到GR00T,具身智能成为AI新高地

全球范围内,众多顶尖高校和科技巨头纷纷投身具身智能研究。斯坦福大学李飞飞团队的 VoxPoser 可基于环境信息和自然语言命令为机器人生成操作指示;谷歌的 RT 系列模型不断迭代优化;英伟达成立 GEAR 实验室并推出 Project GR00T 等。

国内方面,清华、北大、智源研究院与复旦大学等也先后发布了LEGENT、DiscussNav、NaVid等代表性成果,形成产学研联动态势。复旦大学陈涛教授团队同样成果斐然,研发出 MotionGPT 以及 LL3DA,后者成为首款三维多模态具身视觉问答和任务推理大模型,推动我国在具身智能领域迈向新高度。

技术创新:突破边界,普惠大众

作为国内具身智能研究的重要力量,陈涛教授团队在具身智能技术上实现了多项关键突破。他们提出动态计算图优化、混合精度计算、高效蒸馏技术和推理优化架构等,极大提升了计算效率,降低了训练和使用成本,让具身智能技术有望摆脱高成本束缚,走进更广泛的应用场景。

多任务模型轻量化:PAGCP框架加速应用落地

在多任务模型轻量化方面,复旦联合上海人工智能国家实验室提出了一种名为性能感知的全局通道剪枝(PAGCP)框架,旨在根据不同输入进行多任务模型压缩。PAGCP为业内第一个针对多任务模型进行压缩的工作,能够将模型计算量FLOPs和参数减少超过60%,而保持性能不变。该技术已经在华为终端、中兴终端以及英伟达云端和移动平台上实现了1.5倍至3.3倍的推理加速,并成功部署。

大模型轻量化:MADTP框架优化终端推理

在大模型轻量化方面,复旦联合清华课题组提出了一种名为多模态对齐引导的动态令牌剪枝(MADTP)的新框架,可以根据不同下游任务加速视觉语言变换器(VLTs),加速模型在终端设备的推理时间,助力机器人、头显、VR 等设备更好地理解环境。

图片

三维理解赋能:打造多模态大模型数据集 M3DBench

在多模态大模型数据集领域,课题组提出了 M3DBench,一种全面的三维指令跟随数据集,旨在为自主智能体的决策提供更加广泛的三维理解支持,其具备以下特点:

1)支持包括文本、图像、三维物体及其他视觉提示的多模态指令;

2)统一了区域和场景层面的多种三维任务,涵盖真实三维环境中的多项核心能力;

3)作为大规模三维指令跟随数据集,包含超过32万条指令-响应对。

三维感知推理:LL3DA模型实现具身智能认知突破

同时,课题组还提出了LL3DA (大型语言三维助手)模型,一种能够直接采用点云数据作为输入,并对第一人称视角的文本指令和视觉提示作出具身反应的大模型,在三维密集描述和问题回答任务中取得业界领先成果,让机器人对三维世界的认知更精准深入。

本篇文章,我们从基础框架技术突破看到了具身智能如何不断攻克感知、推理与控制的多个技术瓶颈。下一篇,我们将聚焦这些技术如何真正“动”起来,在数字人、机器人乃至现实环境中实现跨模态、多场景的落地应用,从而进一步揭示具身智能引领智能体进化的广阔前景。

OpenLoong 开源社区提供了一个开放交流的平台,在这里,大家可以共同探讨机器人仿真的难点与创新点。本次技术稿件也将在开源社区进行共享,欢迎大家点击下载稿件PDF,一起进行交流。

http://www.xdnf.cn/news/415531.html

相关文章:

  • 多线程(一)
  • 2025/5/7 心得
  • 进销存ERP系统,Java+Vue,含源码及文档,整合进销存各环节,实现数据精准互通,提升企业运营效能
  • 1.1 文章简介
  • Linux——数据库备份与恢复
  • C++哈希表
  • Fellou智能体调研
  • Python训练营打卡DAY23
  • c++ 类的成员初始化
  • [Windows] PicPick Professional_v7.3.4 中文专业版
  • SpringDataRedis的入门案例,以及RedisTemplate序列化实现
  • 18.three官方示例+编辑器+AI快速学习webgl_buffergeometry_points_interleaved
  • Ascend的aclgraph(五)PrimTorch TorchInductor
  • USB学习【10】描述符-HID描述符
  • Stream Deck纯软件实现高性价比平替
  • 多线程(2)——Thread类及常见方法
  • 2025年上半年软考备考攻略:关键事项提醒
  • Java知识库网站整理
  • CHIP第四次作业
  • [编程基础] PHP · 学习手册
  • Spring事务中异步操作导致数据查询失败问题分析与解决方案
  • SHA-256 哈希算法详解
  • DNS工作原理与报文解析
  • Docker快速入门与应用
  • 基于Arduino的贪吃蛇游戏机
  • 位运算题目:黑板异或游戏
  • 火山云网站搭建
  • AES-128 加密与解密详解
  • 分享AI时代数据智能人才定向就业班(暑期班)
  • 【Linux 系统调试】syslog:Linux 系统日志工具详解