当前位置：首页 > ops >正文

【AI论文】观察、聆听、记忆与推理：具备长期记忆能力的多模态智能体

ops 2025/8/19 7:56:32

摘要：我们推出了M3-Agent，这是一个配备了长期记忆功能的新型多模态智能体框架。与人类相似，M3-Agent能够处理实时的视觉和听觉输入，以构建并更新其长期记忆。除了情景记忆外，它还能形成语义记忆，从而能够随时间推移不断积累世界知识。其记忆以实体为中心、采用多模态格式进行组织，能够实现对环境更深入、更一致的理解。在接收到指令后，M3-Agent能够自主进行多轮、迭代推理，并从记忆中检索相关信息以完成任务。为了评估多模态智能体中记忆的有效性和基于记忆的推理能力，我们开发了M3-Bench，这是一个新的长视频问答基准。M3-Bench包含100段从机器人视角新录制的真实世界视频（M3-Bench-robot）以及929段来自网络、涵盖多种场景的视频（M3-Bench-web）。我们标注了旨在测试智能体应用关键能力（如人类理解、常识知识提取和跨模态推理）的问答对。实验结果表明，通过强化学习训练的M3-Agent表现优于最强的基线模型（一个使用Gemini-1.5-pro和GPT-4o的提示智能体），在M3-Bench-robot、M3-Bench-web和VideoMME-long上的准确率分别提高了6.7%、7.7%和5.3%。我们的工作推动了多模态智能体朝着更接近人类的长期记忆方向发展，并为其实际设计提供了见解。模型、代码和数据可在https://github.com/bytedance-seed/m3-agent获取。Huggingface链接：Paper page，论文链接：2508.09736

研究背景和目的

研究背景

随着人工智能技术的快速发展，多模态智能体在多个领域展现出了巨大的应用潜力，如家庭服务机器人、自动驾驶、智能监控等。这些应用场景要求智能体不仅能够处理实时的视觉和听觉信息，还需要具备长期记忆能力，以便在复杂和动态的环境中做出更加智能和人性化的决策。然而，传统的智能体框架往往缺乏长期记忆功能，或者记忆结构较为简单，难以支持复杂的推理和理解任务。

具体而言，现有的多模态智能体在以下几个方面存在不足：

记忆能力有限：大多数智能体只能处理短时记忆，无法有效存储和利用长期经验。
记忆结构单一：记忆通常以非结构化的形式存储，难以支持高效的检索和推理。
跨模态理解不足：在处理视觉和听觉等多模态信息时，难以实现深层次的理解和融合。

研究目的

为了解决上述问题，本研究旨在开发一个名为M3-Agent的新型多模态智能体框架，该框架具备长期记忆能力，能够处理并融合视觉和听觉等多模态信息，实现复杂环境下的智能决策。具体研究目的包括：

开发具备长期记忆的多模态智能体：通过引入长期记忆机制，使智能体能够存储和利用过去的经验，提高其在复杂环境中的适应能力。
优化记忆结构：设计一种以实体为中心、多模态格式的记忆结构，支持更高效的信息检索和推理。
提升跨模态理解能力：通过多模态信息的融合和处理，增强智能体对环境的深层次理解。
评估记忆有效性和推理能力：构建一个新的长视频问答基准M3-Bench，用于评估智能体在记忆和推理方面的性能。

研究方法

为了实现上述研究目的，本研究采用了以下研究方法：

1. 框架设计

M3-Agent框架由两个并行过程组成：记忆化（Memorization）和控制（Control）。

记忆化过程：负责处理实时的视频和音频流，生成并更新长期记忆。记忆分为情景记忆（Episodic Memory）和语义记忆（Semantic Memory）两种类型。情景记忆记录具体事件，而语义记忆则提取一般性知识。
控制过程：负责解释外部指令，从长期记忆中检索相关信息，并执行相应任务。控制过程采用多轮迭代推理机制，逐步检索和利用记忆中的信息。

2. 记忆生成

在记忆化过程中，M3-Agent使用多模态大语言模型（MLLM）来处理视频和音频流。具体步骤包括：

视频和音频处理：将视频流切割成30秒的片段，分别提取视觉和听觉特征。
情景记忆生成：使用MLLM生成每个片段的详细描述，包括人物、动作、对话等信息。
语义记忆生成：从情景记忆中提取一般性知识，如人物身份、关系、环境特征等，形成语义记忆。

3. 记忆检索与推理

在控制过程中，M3-Agent采用多轮迭代推理机制，根据指令从长期记忆中检索相关信息。具体步骤包括：

指令解析：将外部指令解析为可执行的任务。
多轮检索：根据任务需求，逐步检索情景记忆和语义记忆中的相关信息。
迭代推理：在每一轮检索后，根据当前信息更新查询，继续检索直到获得足够的信息来执行任务。

4. 基准构建

为了评估M3-Agent的性能，本研究构建了M3-Bench基准，包含100段从机器人视角录制的真实世界视频和929段来自网络的视频。每个视频都配有多个开放式的问答对，用于评估智能体在记忆和推理方面的能力。

研究结果

通过一系列实验，本研究验证了M3-Agent在记忆有效性和推理能力方面的优越性。具体研究结果如下：

1. 记忆生成质量

实验结果表明，M3-Agent生成的情景记忆和语义记忆均具有较高的质量。情景记忆能够详细记录视频中的具体事件，而语义记忆则能够准确提取一般性知识。与基线模型相比，M3-Agent生成的记忆更加丰富和准确。

2. 推理性能

在M3-Bench基准上的实验结果显示，M3-Agent在多个问答任务上的表现均优于基线模型。具体而言：

M3-Bench-robot：M3-Agent的准确率比最强的基线模型提高了6.7%。
M3-Bench-web：M3-Agent的准确率比最强的基线模型提高了7.7%。
VideoMME-long：M3-Agent的准确率比最强的基线模型提高了5.3%。

这些结果表明，M3-Agent在记忆和推理方面的能力均显著优于现有模型。

3. 消融实验

通过消融实验，本研究进一步验证了记忆结构和推理机制的有效性。实验结果表明：

语义记忆的重要性：去除语义记忆后，M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long上的准确率分别下降了17.1%、19.2%和13.1%。
强化学习的作用：使用强化学习训练的控制模型比未使用强化学习的模型在准确率上提高了10.0%、8.0%和9.3%。
多轮推理的必要性：去除多轮推理机制后，M3-Agent的准确率分别下降了11.7%、8.8%和9.5%。

研究局限

尽管M3-Agent在记忆和推理方面取得了显著进展，但本研究仍存在以下局限：

数据集的局限性：M3-Bench基准虽然包含了一定数量的真实世界视频，但覆盖的场景和任务仍然有限。未来需要构建更大规模、更多样化的数据集来进一步验证M3-Agent的性能。
记忆容量的限制：虽然M3-Agent具备长期记忆能力，但其记忆容量仍然有限。未来需要研究如何扩展记忆容量，以支持更复杂的任务和环境。
实时性能的挑战：在处理实时视频和音频流时，M3-Agent的计算负担较大。未来需要优化算法和硬件，以提高其实时性能。