全模态具身智能:从 VLM 到 MLLM
写在前面
人工智能的感知边界正在以前所未有的速度扩展。最初,我们惊叹于大型语言模型(LLM)对文本的深刻理解和流畅生成。很快,视觉语言模型(Vision-Language Models, VLM) 登场,让 AI 第一次真正“看见”了世界,能够理解图像内容并将其与语言关联,实现了“看图说话”、“图像问答”等功能。
然而,真实世界远比静态图像和文本描述要丰富得多。它充满了动态的视频、环境的声音、人类的语音,以及我们与之交互的物理实体。为了让 AI 更全面地感知、理解并最终融入这个复杂的世界,研究者们正致力于构建更强大的多模态大型语言模型(Multimodal Large Language Models, MLLMs),它们的目标是统一处理和理解文本、图像、视频、音频等多种模态的信息。
这自然引出了一个问题:MLLMs 与我们熟悉的 VLMs 之间究竟有何区别与关联?更进一步,当 AI 拥有了处理更