当前位置：首页 > ops >正文

具身多模态大模型在感知与交互方面的综述

ops 2025/7/2 6:48:28

引言在本学期方老师的《机器人与大模型》课上，我首次接触到了关于具身智能的前沿知识，尤其作为课上交互组的成员，从表情识别到语音交互到机械狗的开发实践进行了一些有意思的探索，使我在其中感受到了具身智能的巨大魅力和无限潜力。人类之所以能够实现高效的感知与自然交互，根源在于我们复杂而协调的多模态感知系统，例如视觉、听觉、触觉等。这种多感官融合赋予了人类强大的环境理解和实时决策能力。模拟和重建这种能力，正是具身智能研究的核心挑战之一。因此，多模态技术的集成与突破已成为发展具身智能机器人的关键路径。作为学期结课报告，我希望了解具身多模态大模型的主要技术原理，从技术原理出发，系统梳理当前具身多模态大模型的发展脉络与研究趋势，深入探讨其在感知与交互环节中的技术路径、典型应用与现实瓶颈，力求对该方向建立起更加全面、深入的理解与认识。
图表1：具身多模态大模型的演进2. 具身多模态感知与交互的技术框架具身智能的核心在于通过与物理环境的持续交互实现认知与行为的协同进化。相比传统的感知系统，具身智能更强调“感知-决策-行动”的闭环过程，而多模态感知能力则是其中不可或缺的基础模块。本节将从感知输入维度，多模态融合方法，和三个方面展开，对当前具身多模态大模型的关键技术进行系统梳理。
图表2：感知-决策-行动系统2.1 感知输入维度：多模态信息的来源为了赋予机器人类似人类的交互能力，具身多模态模型需综合处理来自多个感知通道的信息。不同的任务场景对模态组合的依赖程度不同，常见输入模态包括但不限于以下几类：2.1.1视觉模态视觉是最核心的信息源之一，为具身智能提供对象识别、空间理解与动作推理的基础。典型视觉输入包括：二维图像：广泛应用于目标检测、场景分割等任务。三维点云：提供物体几何结构与深度信息，用于物体姿态估计和三维建图。视频序列：融合时序信息，适用于动作识别、行为理解与事件检测。2.1.2 语音与音频模态声音不仅是人机交流的重要手段，也提供了环境理解的辅助信号，常见子任务包括：语音识别（ASR）：将语音信号转录为文字，是语音交互的基础环节。语调与情感识别：分析说话者的情绪状态，提升交互的自然性与适应性。环境音检测：识别关键事件声音，如玻璃破碎、警报等。值得一提的是科大讯飞在六月份发布的智能语音交互模型—星火交互大模型。技术突破方面，讯飞认为情绪的感知和表达是拟人交互的基础要求。以前语音助手可能你还没说完它就抢答，或者你说完它反应慢半拍。现在它能更聪明地判断你是在思考停顿、在附和、还是在犹豫，不会乱打断你，带来更流畅的交互体验。基于千万高质量高情商对话数据训练，和背后模型——星火交互大模型“共情能力”升级，它不光听懂你说什么词，还能从你说话的语调、声音里感觉出你是高兴、沮丧还是烦躁。成为能回应你喜怒哀乐的智能伙伴。此外，其提出类人记忆系统。基于长短时记忆融合架构，模拟人脑记忆方式，对对话记录进行多层精准提取（上下文对话、用户画像、生活事件），慢慢形成专属的聊天方式和知识库，像是在陪伴你共同成长。图表3：科大讯飞语音交互大模型2.1.3触觉与力觉模态具身智能强调与物理环境的直接接触，触觉信息对于操作任务（如抓取、操控）尤为关键：力反馈：用于实现稳定抓取、柔顺控制等任务。触觉纹理识别：模拟人类对表面粗糙度、硬度等属性的判断。上述模态共同构成了具身智能中对环境与自身状态的感知基础，是多模态大模型输入的关键来源。2.2 多模态信息的融合机制在完成多源感知信息采集后，实现模态之间的高效协同始终是具身多模态系统设计的核心难题。早期多模态感知主要依赖手工设计的融合策略，如在数据层面拼接输入（如RGB与深度图的组合）、或在决策层对不同模态结果加权融合。这些方法结构简单、实现容易，但往往难以有效捕捉模态间的深层语义关联，且对输入格式、尺度等要求较高，适应性与泛化能力有限。
图表4：多模态特征融合随着Transformer架构在语言与视觉领域的成功应用，跨模态注意力机制逐渐成为主流融合方式。该机制通过构建共享表示空间，实现了不同模态间的语义对齐与动态交互，显著提升了感知与决策的协同效率。基于此技术基础，近年来涌现出一系列通用多模态大模型，将感知、语言理解与动作控制融为一体，推动具身智能迈向统一表示与端到端任务执行的阶段。典型代表包括 CLIP、Flamingo、GPT-4V 等视觉语言模型，以及 Gato、PaLM-E、RT-2 等面向具身场景的多模态模型。这些系统通过统一编码器与大规模预训练，支持文本、图像、语音与控制信号等模态的协同理解与任务迁移，显著增强了机器人系统的通用性与泛化能力，成为当前具身智能发展的重要方向。2.3 具身交互技术框架与传统智能体仅限于信息输入和离线处理不同，具身智能强调“在场”（situatedness）与“行动中的智能”（intelligence in action）。其核心理念是：认知并非独立于身体存在，而是在环境中的持续感知—反应循环中动态建构的。因此，具身多模态大模型不仅要理解多源感知数据，更需具备高效、自然的人机交互能力与物理交互执行能力。本节将围绕交互通道、决策机制与行为生成三大方面，系统梳理具身交互的技术构成。2.3.1 人机交互通道：多模态输入下的语言接口与表达反馈具身交互的第一层是输入与输出的接口，即智能体如何“听懂人话”“看懂表情”以及“做出回应”：语言理解与生成：以语言为中心的交互是当前具身系统中最通用的方式，涉及自然语言指令解析、意图识别、多轮对话管理等。情感与语气感知：交互并非中性传输，感知语调变化和非语言语义（如紧张、生气）是人类交互的重要组成，具身大模型正逐步集成情感识别模块以增强社交适应性。表达性反馈：如机械臂通过姿态、光效或语音表达“完成”“失败”“等待”等状态，以增强可解释性与交互友好度。多轮对话记忆与上下文保持：新一代模型如Flamingo和PaLM-E具备长上下文保持能力，可在任务执行中持续参考历史语义，实现连续性交互。2.3.2 感知-理解-行为的决策机制具身交互的关键在于将感知结果与任务目标映射为动作计划。这一过程通常涉及以下几个技术层级：状态估计（State Estimation）：对当前环境状态、目标位置、自身姿态等进行多模态感知融合与建模。任务规划（Task Planning）：根据语言目标解析（如“把红色杯子放到桌上”）进行行为序列推理。行为选择与控制（Action Selection & Control）：通过策略网络、强化学习或条件生成模型输出具体的运动指令。
图表5：具身感知与交互框架2.3.3 行为生成与物理交互执行具身交互的最终目标是动作执行，即在真实或仿真环境中做出有效操作。其挑战包括物理动力学建模、不确定性处理与实时反馈调控：动作生成机制：可采用策略网络（如Actor-Critic）、Diffusion模型（用于平滑轨迹生成）或Motion Primitives库（动作原语）。运动控制：包括位置/力控制、抓取稳定性判定、动态路径调整等。多模态反馈（如触觉+视觉）在此阶段尤为关键。实时调节与自适应控制：应对目标移动、障碍出现等突发情况，依赖闭环感知—决策回路。例如，Gato模型集感知、语言、控制于一体，能在多个平台（机器人臂、文字游戏等）中统一执行任务，显示了具身大模型跨领域泛化的潜力。3. 感知与交互能力的技术瓶颈与发展方向尽管近年来具身多模态大模型（Embodied Multimodal Large Models, EMLLMs）取得了显著进展，但相比人类的自然感知与交互能力，其在多个关键层面仍存在不可忽视的技术差距。特别是在感知细节、空间理解、语义对齐以及指令执行的鲁棒性方面，多模态大模型仍面临系统性不足。以Yann Lecun 等人在 CVPR 2024 提出的研究为例，我们可以清晰地识别这些瓶颈的来源与改进方向。3.1 感知层面的缺陷：从“看不清”到“看错了”当前主流的具身多模态模型多采用 CLIP 作为视觉编码器，而 CLIP 本质上是基于图文对比学习的图像理解模型，偏向于抽取高层次语义信息。这种机制带来两个核心问题：视觉细节感知能力弱：CLIP 和其衍生模型难以区分微小但语义关键的视觉差异（如“方向”“数量”“颜色变化”等），导致生成模型在面对简单视觉问答任务时也可能给出错误答案。“CLIP-blind pairs”问题：研究指出，CLIP 会将显著不同的图像嵌入到相似的特征空间中，造成模型对环境细节“视而不见”，在具身场景中将严重影响目标识别、障碍规避和操作决策。此外，这类错误一旦嵌入到模型预训练阶段，将沿着多模态路径向下传递，成为整个 MLLM 感知能力的系统性短板。3.2 交互层面的挑战：对齐失真与指令误解具身交互要求模型理解复杂的跨模态语义，并转化为精确的动作计划。但当前的模型存在以下痛点：语言-视觉对齐不充分：多数模型通过适配器（adapter）将视觉与语言信息连接，但这种对齐方式在面对结构复杂或语义细粒度的任务（如“抓起左边红色杯子”）时极易失效。多模态注意力机制的不稳定性：虽然 Transformer 架构提升了中间融合能力，但依赖 CLIP 特征的注意力权重易偏向语言线索，从而“弱化”视觉输入。指令执行缺乏环境适应性：由于感知误差或跨模态表征偏差，具身大模型在动作生成时常出现“对错目标执行动作”“误解任务语义”等现象，尤其在动态环境下更为显著。3.3 技术发展方向与前沿尝试为解决上述问题，当前已出现若干改进路径：3.3.1视觉编码器替代与融合Yann Lecun等人提出“Mixture-of-Features”（MoF）策略，即将视觉自监督模型（如 DINOv2）与 CLIP 编码器的特征融合，以增强视觉基础表示：Additive MoF：线性混合 CLIP 与 DINOv2 特征，改善视觉细节感知但削弱指令跟随能力。Interleaved MoF：在空间上交替融合两者特征，显著提升视觉定位与问答准确率，且不显著影响语言理解。
图表6：MoF框架3.3.2 任务驱动的多模态对齐优化近年来，PaLM-E（Google 提出）通过将多模态感知嵌入语言模型，实现了视觉、语言和动作的统一对齐。PaLM-E在 PaLM 语言模型基础上，将图像、机器人状态等连续传感器输入编码为与词向量相同维度的特征序列，并与文本输入一起喂入预训练的语言模型。这种设计使得模型能够在一个统一的架构中同时处理视觉信息和语言指令，从而输出表示动作序列的文本指令。比如在图示架构中，机器人摄像头图像和状态信息被转换为“视觉嵌入”后输入到 PaLM，最终由模型生成一连串的控制命令。PaLM-E 在训练时联合使用机器人任务数据（如抓取、堆叠、导航任务）以及大规模视觉-语言任务（如图像问答、图像描述），因此具有强大的跨域迁移能力。实验表明，PaLM-E 可以在多种机器人平台上执行多阶段任务而不显著退化。如对机器人发出“把抽屉里的薯片拿过来”的指令时，PaLM-E 自动规划出“寻找并打开抽屉、取出薯片” 等步骤；面对意外扰动（有人将薯片放回抽屉），模型也能实时调整计划，表现出较好的鲁棒性。此外，PaLM-E 在图像问答等通用视觉语言任务上也取得了极佳效果（例如在 OK-VQA 数据集上达到 SOTA 水平），并在机器人任务上展现出“少样本学习”优势——视觉语言数据的联合训练显著提升了机器人学习效率。
图表7：PaLM-E框架与 PaLM-E 方向类似，RT-2（DeepMind 等提出）提出了“视觉-语言-动作模型”（VLA）的概念，通过将机器人动作表示为文本与视觉语言联合预训练。RT-2 采用协同微调（co-fine-tuning）策略：将互联网大规模视觉问答数据与机器人轨迹数据混合训练，在同一模型中学习图像理解、语言理解和机器人动作控制。其关键创新在于将每个机器人时刻的动作编码为一串文本 token（如动作指令的离散化编码），并将其与自然语言答案一样输入模型。这种表示使得RT-2 在训练时能够“无缝”吸收网络上丰富的视觉-语言知识，同时也学习闭环的控制策略。实验证明，与前一代方法相比，RT-2 获得了显著的泛化能力和语义推理能力。
图表8：RT-2原理图4.总结当前多模态与具身智能的结合已能实现基础交互和结构化任务理解，但在开放环境、复杂社交场景中的泛化能力还需增强，任务的识别和完成的准确率仍需提高。Transformer，MoE等架构直接推动了大模型的产生，显著提升了语义和推理能力，并通过与视觉、触觉、语音等多种模态的结合使大模型跳出文本之外，获得对各个模态的感知和分析能力。在具身智能领域，相信这样的框架也将很快产生突破，届时，辅以海量的训练数据，具身智能的GPT时刻将随之而来，通过与机器人底层控制紧密结合，具身智能将不止停留在分解长任务为短任务，而可以跳出任务之外，无需任务的下达和驱动，通过对物理世界，人类社会的合理认识，从而实现最真实的感知与交互。