当前位置: 首页 > java >正文

论文阅读:AAAI 2024 ExpeL: LLM Agents Are Experiential Learners

https://www.doubao.com/chat/15518976100960770

https://ojs.aaai.org/index.php/AAAI/article/view/29936

Advances and Challenges in Foundation Agents–Memory调研

论文翻译

ExpeL: 大型语言模型代理是经验学习者

摘要

最近,利用大型语言模型(LLMs)中蕴含的丰富世界知识来解决决策任务的研究兴趣激增。虽然针对特定决策任务定制大型语言模型的需求日益增长,但为特定任务微调这些模型不仅耗费资源,还可能降低模型的泛化能力。此外,像GPT-4和Claude这样的最先进语言模型主要通过API调用访问,其参数权重仍为专有信息,不向公众开放。这种情况凸显了对新方法的迫切需求,即无需参数更新就能从代理经验中学习。为解决这些问题,我们提出了经验学习(ExpeL)代理。该代理能自主收集经验,并从一系列训练任务中用自然语言提取知识。在推理阶段,代理会回忆提取的见解和过去的经验,以做出明智的决策。我们的实证结果凸显了ExpeL代理强大的学习效能,表明其性能随着经验的积累而持续提升。我们还通过定性观察和额外实验,进一步探索了ExpeL代理的新兴能力和迁移学习潜力。

1 引言

汤姆·米切尔(Tom Mitchell)曾说:如果一个计算机程序在某类任务T上的性能(由性能指标P衡量)随着经验E的增加而提高,那么就可以说该程序从经验E中学习。

长期以来,机器学习研究一直被自主代理及其能力所吸引。近年来,将大型语言模型融入这些代理(Wang等人,2023a;Xi等人,2023)已经揭示了广泛的应用,甚至超出了学术界的范围(Yang等人,2023a;Significant-Gravitas,2023)。大型语言模型的一个显著优势在于其拥有的世界知识,这使得它们在各种场景中本质上具有通用性(Zhao等人,2023b)。

一方面,先前的研究通过大量环境交互(Yao等人,2023c)或大量人类标记数据集(Nakano等人,2021;Shaw等人,2023)来微调大型语言模型。这类方法计算成本高,并且需要访问大型语言模型的参数权重。此外,微调大型语言模型会限制其功能,并可能损害其泛化能力(Du等人,2022)。另一方面,提示方法只需几个上下文示例,就能增强大型语言模型的顺序决策规划能力(Hao等人,2023;Lin等人,2023b;Sun等人,2023)。然而,由于当前的大型语言模型受限于上下文窗口大小(Tworkowski等人,2023),这些代理无法记住它们所见过的内容,因此除了少数演示之外,无法进行学习。那么,我们如何在这些范式之间取得平衡呢?

我们提出经验学习(ExpeL)代理作为解决方案。我们的代理通过试错从一系列训练任务中自主收集经验。从这些经验中,它提炼出自然语言见解,并在测试时将自己的成功经验作为上下文示例。我们代理的学习过程类似于学生为考试学习,然后一次性参加考试,这反映了许多现实世界的情况。与Refexion(Shinn等人,2023)等自我改进方法不同,我们的方法强调在多个任务中保留经验对提高代理性能的重要性。此外,ExpeL无需参数更新即可学习,这使其与GPT-4或Claude等强大的闭源模型兼容。最后,经验收集步骤不需要大量数据或人类标签。

我们在三个截然不同的领域对ExpeL进行了评估,其性能始终优于强大的基线模型。此外,我们展示了一个迁移学习场景,即从源任务中积累知识的代理对目标任务表现出积极的前向迁移。最后,我们强调了ExpeL代理获得的一些意想不到的新兴能力。

总之,我们的主要贡献如下:(1)我们提出了ExpeL,这是一种新型的大型语言模型代理,能够在无需梯度更新的情况下自主从经验中学习;(2)我们在一系列不同的任务上对ExpeL进行了评估,以展示其学习能力以及在现有规划方法基础上的改进;(3)我们为我们的大型语言模型代理展示了一种新颖的迁移学习设置,并证明了从源任务到目标任务的前向迁移能力。最后,我们相信,随着规划算法和基础模型的不断改进,ExpeL范式将从它们的性能提升中获得显著收益。

在这里插入图片描述

http://www.xdnf.cn/news/17361.html

相关文章:

  • 要写新项目了,运行老Django项目找找记忆先
  • 什么是 401(k) 账户?
  • C++简单项目跟练【通讯录管理系统000】
  • Vue 自定义水印指令实现方案解析
  • 惯量时间常数 H 与转动惯量 J 的关系解析
  • 冠雅新品 | 以“无形之光”守护双眸,以“无声之智”浸润生活
  • 【网络运维】Linux:MariaDB 数据库介绍及管理
  • 2025-08-08 李沐深度学习11——深度学习计算
  • pdf文件转word免费使用几个工具
  • Leetcode-.21合并两个有序链表
  • Ⅹ—6.计算机二级综合题27---30套
  • 微信小程序miniprogram-ci 模块实现微信小程序的自动上传功能
  • Python 文件(File) 的常用方法
  • NOIP 2024 游记
  • 【/usr/bin/env: “bash\r”: 没有那个文件或目录】问题解决
  • Java中的方法引用操作符(::)详解与实战应用
  • 2025华数杯数学建模A题【 多孔膜光反射性能的优化与控制】原创论文讲解(含完整python代码)
  • 电脑定时开关机终极指南
  • Python合并两个PDF文件
  • php防注入和XSS过滤参考代码
  • Access开发右下角浮窗提醒
  • Next.js 数据获取:使用 getServerSideProps 进行服务器端渲染
  • 机器学习——07 朴素贝叶斯
  • 强制用户更改WordPress密码的重要性及实现方法
  • Java集合中的链表
  • 控制建模matlab练习11:伯德图
  • ORACLE看当前连接数的方法
  • 【Oracle篇】Oracle Data Pump远程备份技术:直接从远端数据库备份至本地环境
  • USRP 毫米波通信解决方案
  • Jmeter使用第一节-认识面板(Mac版)