当前位置: 首页 > web >正文

【MLLM】具有长期记忆的多模态智能体框架M3-Agent

note

  • 通过强化学习训练的M3-Agent在多个基准测试中表现均显著优于基线模型(包括基于商业模型如Gemini-1.5-Pro和GPT-4o的智能体)
  • 记忆以实体为中心的结构进行组织,例如与同一个人相关的信息(例如他们的脸、声音和相关知识)会以图的格式连接起来,随着智能体不断提取和整合语义记忆,这些关联关系会逐步建立完善。

文章目录

  • note
  • 一、m3-agent智能体框架
  • 二、M3-Bench基准
  • 其他思考
  • Reference

一、m3-agent智能体框架

论文:Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
参考链接:https://x.com/omarsar0/status/1956773240623235076
论文:https://www.arxiv.org/abs/2508.09736
代码:https://github.com/bytedance-seed/m3-agent

在这里插入图片描述
图 1 M3-Agent 的架构,包括一个多模态大型语言模型 (MLLM) 和一个多模态长期记忆。该系统由两个并行过程组成:记忆和控制。在记忆过程中,M3-Agent在线处理视频和音频流,生成情景记忆和语义记忆。在控制过程中,它通过迭代地推理和从长期记忆中检索来执行指令。长期记忆被结构化为多模态图。

在记忆过程中,M3-Agent会实时处理输入的视频流,通过生成两种记忆类型来同时捕获细粒度细节和高级抽象信息,类似于人类认知系统:

  • 事件记忆:记录视频中观察到的具体事件。例如,“爱丽丝拿起咖啡说,‘早上没有这个我无法离开’”,以及“爱丽丝将空瓶子扔进绿色的垃圾桶”。
  • 语义记忆:从片段中推导出一般知识。例如,“爱丽丝喜欢早上喝咖啡”和“绿色的垃圾桶用于回收”。

记忆以实体为中心的结构进行组织,例如与同一个人相关的信息(例如他们的脸、声音和相关知识)会以图的格式连接起来,随着智能体不断提取和整合语义记忆,这些关联关系会逐步建立完善。

M3-Agent并非使用单轮检索增强生成(RAG)将记忆加载到上下文中,而是采用强化学习来实现多轮推理和迭代记忆检索,能自主从不同维度(如事件或角色)的长期记忆中检索相关信息,从而提高任务成功率。
在这里插入图片描述

二、M3-Bench基准

问题痛点:传统的长视频理解方法(例如在多模态模型中扩展上下文窗口或压缩视觉标记以增加时间覆盖范围)对于无限长的视频流来说,并不具备有效的扩展性。为了提高可扩展性,基于记忆的方法引入了记忆模块来存储编码的视觉特征以供未来检索。这些架构适合在线视频处理,但它们面临一个基本限制:难以保持长期一致性。由于它们只存储视觉特征,这些方法难以在长时间内保持对人类身份或演变事件等实体的连贯跟踪。

研究团队提出了M3-Bench,一个用于评估多模态智能体长期记忆推理能力的 LVQA 数据集。M3-Bench中的每个实例包含一个模拟智能体感知输入的长视频,以及一系列开放式问答对。

为了全面评估智能体回忆过去观察结果和基于记忆进行推理的能力,研究团队整理了五种不同类型的问答题,如下图所示。
在这里插入图片描述

其他思考

另一个是记忆Graph化用于多模态智能体框架M3-Agent,接着说记忆Graph化,核心还是通过Graph 的方式,对交互信息进行关联,关于这块,我们在《经典问题之Graph可以如何与Agent结合?从单点到全面归纳》(https://mp.weixin.qq.com/s/bRThRFc7TdLP5S7R1-2f4w) 中已经介绍了不少将知识图谱用于Agent记忆管理的工作,例如Graphti等。其中,《Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities》,https://arxiv.org/pdf/2506.18019,https://github.com/YuanchenBei/Awesome-Graphs-Meet-Agents,里面更是详细的进行了归类。那么,如果这个工作放入到多模态领域呢?会如何?所以,看一个工作,字节发布的多模态智能体框架M3-Agent,即:记忆Graph化用于多模态智能体框架M3-Agent,即上面介绍的工作。

Reference

[1] 经典问题之Graph可以如何与Agent结合?从单点到全面归纳.老刘NLP
[2] 字节Seed开源长线记忆多模态Agent,像人一样能听会看
[3] 论文:Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
参考链接:https://x.com/omarsar0/status/1956773240623235076
论文:https://www.arxiv.org/abs/2508.09736
代码:https://github.com/bytedance-seed/m3-agent

http://www.xdnf.cn/news/19560.html

相关文章:

  • 《信息学奥林匹克辞典》中的一个谬误
  • Java异常处理完全指南:从入门到精通
  • 安装proteus,并实现stm32仿真
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘pydantic’问题
  • 从 ETL 到 ELT 再到 EAI:AI 如何重塑数据处理
  • 小迪安全v2023学习笔记(七十五讲)—— 验证码安全插件识别攻击利用宏命令
  • 设计模式在Java中的应用:从单例模式到工厂模式的全面解析!
  • 计算机网络总览
  • 使用 GLSL 实现真实自然的纹理混合技术详解
  • 【Java实战⑨】Java集合框架实战:List集合深度剖析
  • 【STM32】外部中断(下)
  • 829作业
  • 告别强化学习?GEPA:用“反思性提示词进化”实现超越的新范式
  • SpringMVC的执行流程
  • 阿里云-应用实时监控服务 ARMS
  • 想学怎么写网站怎么办?初学者专用! (HTML+CSS+JS)
  • 微知-Mellanox OFED编译的一些细节?无法编译怎么办?如何添加自定义编译选项?
  • selenium 元素操作
  • mysql5.7.44安装遇到登录权限问题
  • NM:微生物组数据分析的规划与描述
  • 数字世界的两面性:从乘积组合到最大公约数的算法之旅
  • MCP(Model Context Protocol,模型上下文协议)介绍
  • 计算机毕设选题:基于Python+Django实现电商评论情感分析系统
  • 如何利用AI IDE快速构建一个简易留言板系统
  • 基于SpringBoot + Vue 的宠物领养管理系统
  • Decoder 解码器
  • JPEG XS概述
  • 【51单片机】【protues仿真】基于51单片机智能晾衣架系统
  • centos7安装jdk17
  • Linux 中进入 root 权限