当前位置: 首页 > ai >正文

Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架

大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。

当前LLM智能体的构建主要遵循两种学习范式,但是都存在根本性限制。第一种范式基于专门化框架构建智能体,采用固定工作流程和硬编码推理逻辑。虽然这种方法在特定任务上表现良好,但缺乏必要的灵活性,部署后智能体保持静态状态,无法整合在线信息或适应新出现的情况。

第二种范式专注于通过参数调优更新底层LLM本身,包括监督微调和强化学习等方法。这种方式虽然能够实现更灵活的行为模式,但需要承担高昂的计算成本。这两种构建自适应智能体的方法要么过于僵化,依赖静态的手工制作反思工作流程,要么计算密集,需要对LLM模型参数进行梯度更新。

Memento的核心理念

面对如何构建能够在动态环境中持续学习而无需承担微调成本的LLM智能体这一挑战,Memento提供了创新解决方案。该框架通过基于记忆的在线强化学习实现低成本持续适应,完全避免了对LLM的微调需求。

Memento的设计理念源于人类学习机制的模拟。人类在处理经验时会将每次经历情景轨迹,在巩固过程中将其提炼为抽象规则,通过多巴胺驱动的信用分配机制进行选择性强化,并在面临类似问题时通过基于案例或类比的推理进行检索。

基于这一观察,LLM智能体不再依赖微调基础模型,而是利用外部记忆存储包含成功和失败标签的历史轨迹,从类似的过往经验中汲取指导信息进行决策。这一机制的理论基础是基于案例的推理(Case-Based Reasoning, CBR),这是一种具有心理学基础的学习策略,有充分证据表明人类经常通过回忆类似情况来解决问题。

技术实现架构

Memento通过构建非参数化的即时框架来实现基于案例的推理,具体实例化为基于记忆的马尔可夫决策过程(Memory-based MDP)的规划器-执行器架构。该系统包含三个核心组件:规划器、工具增强执行器,以及用于存储历史轨迹作为情景记忆的动态案例库。

与标准马尔可夫决策过程不同,Memento将记忆直接整合到决策过程中。给定当前状态,CBR模块检索相关案例并通过LLM进行重用和适配,这一过程类似于典型的强化学习流程。基于案例的推理智能体根据当前状态和有限的历史案例记忆做出决策,使用案例检索策略为给定状态生成历史案例的概率分布,进而影响LLM的行动选择。CBR智能体的策略通过软Q学习算法进行学习和更新。

具体架构实现为规划器-执行器,在基于案例的规划(上面的阶段1)和基于工具的执行(阶段2)之间交替运行。规划器是一个由案例记忆模块增强的基于LLM的CBR智能体,该模块同时支持写入操作(记录新案例并在线优化Q函数)和读取操作(通过学习的检索策略检索案例以实现自适应案例选择)。执行器则是基于LLM的MCP客户端,通过MCP协议调用托管在MCP服务器上的外部工具。

在Deep Research场景,Memento通过M-MDP方法实现有状态的提示工程。智能体需要通过迭代式环境交互、外部工具调用、外部信息检索以及异构数据处理来解决复杂的长期任务,系统在基于案例的规划和基于工具的执行两个核心阶段间持续交替。

实验结果与性能评估


实验在四个基准数据集上进行全面评估。GAIA基准测试长期工具使用能力,DeepResearcher评估实时网络研究性能,SimpleQA检验事实准确性,HLE则专注于长尾学术推理能力。系统采用规划器-执行器架构,使用GPT-4.1作为规划器,o4-mini作为默认执行器(GAIA基准使用o3),并配备完整的工具支持。

实验结果显示Memento在GAIA验证集上取得第一名(87.88% Pass@3),在私有测试排行榜上达到79.40%的成绩。在DeepResearcher数据集上实现66.6% F1分数和80.4% PM指标,超越了当前最先进的基于训练的系统。基于案例的记忆机制在分布外任务上带来4.7到9.6个绝对百分点的提升,在SimpleQA基准上达到95.0% PM。

这一方法代表了LLM智能体基于案例持续学习的首次尝试,在GAIA基准上实现顶级性能,为Deep Research智能体的持续适应提供了具有原则性的框架支撑。

总结

Memento通过其基于记忆的学习范式实现了重要突破,支持自适应在线搜索而无需更新模型权重。该方法将深度研究智能体形式化为基于记忆的MDP,在规划器-执行器框架内实现,利用情景案例库记录和检索轨迹以实现持续策略改进。作为该领域的开创性工作,Memento为未来智能体系统的发展奠定了重要基础。

论文:https://avoid.overfit.cn/post/b6655a71ece747729890be10959e8855

作者: Mayur Jain

http://www.xdnf.cn/news/19536.html

相关文章:

  • keycloak中对接oidc协议时设置prompt=login
  • lesson52:CSS进阶指南:雪碧图与边框技术的创新应用
  • 公司电脑监控软件应该怎么选择?五款超实用的公司电脑监控软件推荐
  • 高性能多线程 PHP 图像处理库 PHP-VIPS:颠覆你对图像处理的认知
  • 从零开始学习C#上位机开发学习进阶路线,窥探工业自动化和物联网应用
  • 硬件开发1-51单片机1
  • Windows 电脑发现老是自动访问外网的域名排障步骤
  • 渗透测试-FastJson漏洞原理与复现
  • 【51单片机】【protues仿真】基于51单片机脉搏体温检测仪系统
  • 2024 年 AI 技术全景图:大模型轻量化、多模态融合如何重塑产业边界?
  • 数据库索引失效的原因+示例
  • (线上问题排查)3.线上API接口响应慢?一套高效排查与定位问题的心法
  • OpenCV-Python Tutorial : A Candy from Official Main Page(五)
  • Roo Code自定义Mode(模式)
  • 基于单片机智能家居环境监测报警系统Proteus仿真(含全部资料)
  • Cesium 加载桥梁3DTiles数据时,出现部分区域发暗、部分正常的现象
  • openEuler2403编译安装Nginx
  • 【期末复习】--软件工程
  • 苍穹外卖项目实战(日记十三)-记录实战教程及问题的解决方法-(day3-5) 修改菜品功能实现
  • C++ Bellman-Ford算法
  • 「数据获取」《中国住户调查年鉴》(2000-2024)(获取方式看绑定的资源)
  • # [特殊字符] 构建现代化黄金价格实时仪表盘:技术解析与实践
  • AI产品经理面试宝典第81天:RAG系统架构演进与面试核心要点解析
  • C++11新特性解析与应用
  • GPU 通用手册:裸机、Docker、K8s 环境实战宝典
  • Jetson AGX Orin平台R36.3.0版本1080P25fps MIPI相机图像采集异常调试记录
  • 在idea当中git的基础使用
  • 【公告】更新预告
  • 1.4 汽车的制动性
  • 面向对象六大设计原则(2.0详细版)