当前位置: 首页 > java >正文

AGILE:开启LLM Agent强化学习的创新框架

在大语言模型(LLMs)蓬勃发展的今天,基于LLMs构建的智能体成为研究热点。但如何将各组件整合优化仍是难题。本文提出的AGILE框架给出了创新解法,它不仅统一多组件,还让智能体性能超越GPT-4。想知道它是如何做到的吗?快来一探究竟!

论文标题
AGILE: A Novel Reinforcement Learning Framework of LLM Agents
来源
arXiv:2405.14751v2 [cs.LG] 5 Nov 2024
https://arxiv.org/abs/2405.14751

文章核心

研究背景

大语言模型(LLMs)展现出强大能力,推动了基于LLMs的智能体(LLM agents)发展,但目前尚不清楚如何将规划、反思、工具使用等组件整合到统一框架并进行端到端优化。

研究问题

  1. 缺乏统一框架整合和优化LLM智能体的多个组件,如规划、反思、工具使用等,各组件间协同工作机制不明确。
  2. 现有复杂问答(QA)基准测试无法全面评估智能体结合所有模块和能力的表现,难以反映智能体在实际应用中的综合能力。
  3. 大语言模型存在幻觉、缺乏长尾知识等问题,在智能体中如何有效利用人类专家知识提升性能,同时平衡准确性和人力成本是挑战。

主要贡献

  1. 提出新强化学习框架:设计AGILE(AGent that Interacts and Learns from Environments)框架,实现智能体端到端学习。该框架让智能体可主动向人类专家寻求建议,处理复杂问题时能保证准确性,并从人类学习中提升适应新任务的能力。
  2. 开发新基准数据集:创建ProductQA数据集,包含88,229个问答对,涉及26个QA任务,涵盖多种问题类型,可全面评估智能体处理历史信息、使用工具、与人交互、自我评估和反思等能力。
  3. 验证框架有效性:在ProductQA、MedMCQA和HotPotQA等多个任务上实验,结果表明基于7B和13B LLMs且经近端策略优化算法(PPO)训练的AGILE智能体性能优于GPT-4智能体。

方法论精要

1. 核心算法/框架:AGILE框架由LLM、记忆、工具和执行器四个模块构成。将智能体构建视为强化学习问题,LLM作为策略模型,执行器根据LLM指令实现状态转换,环境给出奖励,通过这种方式实现智能体与环境的交互和学习。

2. 关键参数设计原理:在策略学习中,无论是模仿学习(IL)还是强化学习(RL),都将损失计算限定在动作令牌上,并使用当前LLM上下文$ c_{i} 作为注意力掩码。对于长轨迹问题, ∗ ∗ 通过将轨迹划分为较小片段,并提出会话级优化算法 ∗ ∗ ,引入代理奖励 作为注意力掩码。对于长轨迹问题,**通过将轨迹划分为较小片段,并提出会话级优化算法**,引入代理奖励 作为注意力掩码。对于长轨迹问题,通过将轨迹划分为较小片段,并提出会话级优化算法,引入代理奖励 \overline{r}{k}\left(\tau{i}\right) $ ,简化优化过程。

3. 创新性技术组合:结合LLM、记忆、工具和执行器,使智能体具备推理、规划、反思和寻求建议等能力。例如,智能体可利用记忆模块检索历史信息,使用工具模块进行产品搜索等操作,遇到难题时向专家寻求建议并通过反思积累知识。

4. 实验验证方式:在ProductQA、MedMCQA和HotPotQA三个复杂QA任务上评估AGILE智能体。选择GPT-3.5、GPT-4等作为基线模型,对比直接提示模型回答(如gpt3.5-prompt、gpt4-prompt)和在AGILE框架内提示模型回答(如agile-gpt3.5-prompt、agile-gpt4-prompt)的结果。同时,通过调整寻求建议成本、进行消融研究等方式验证框架和各模块的有效性。

实验洞察

1. 性能优势:在ProductQA数据集上,agile-vic13b-ppo相比agile-gpt4-prompt,短答案平均总得分相对提高9.2%,长答案提高5.0%;在MedMCQA数据集上,agile-mek7b-ppo准确率达到85.2%,相比基线模型Meerkat-7b-prompt提升31.8%,超过当前最优模型gpt4-Medprompt(79.1%);在HotPotQA数据集上,agile-vic13b-ppo准确率为67.5%,相比最强基线ReAct-gpt4-prompt提升40.0%。

2. 消融研究:在ProductQA数据集上的消融实验表明,禁用寻求建议功能导致准确率下降10.7%,总得分降低5.0%;移除工具使用功能使寻求建议频率增加25.9%,总得分降低9.3%;去除记忆或反思能力也会使寻求建议频率上升,总得分下降,验证了各核心模块的重要性。

本文由AI辅助完成。

http://www.xdnf.cn/news/2923.html

相关文章:

  • CSdiy java 06
  • Spark,集群搭建-Standalone
  • 小结:PKI(Public Key Infrastructure,公钥基础设施)
  • Python爬虫(10)Python数据存储实战:基于pymongo的MongoDB开发深度指南
  • npm打包内存不足- JavaScript heap out of memory
  • SQLMesh增量模型实战指南:时间范围分区
  • 对比测评:为什么AI编程工具需要 Rules 能力?
  • 借助云蝠智能大模型呼叫,打造企业招聘竞争力
  • 如何强制触发 OpenShift 节点的 MachineConfig 更新
  • GC的查看
  • MySQL事务隔离级别的实现原理MVCC
  • 今日行情明日机会——20250429
  • UEC++第15天|番茄插件、实现跳跃、实现背景运动
  • JavaScript高级进阶(五)
  • 豪越科技消防立库方案:实现应急物资高效管理
  • 链表的中间节点
  • 机器视觉算法与应用:企业级开发全流程详解
  • Kotlin -> lateinit 和 lazy 详解
  • 嵌入式音视频实时通话EasyRTC打造设备安装与调试的高效远程解决方案
  • Nginx反向代理的负载均衡配置
  • Python入门:流程控制练习
  • 数据编辑器中变量的精妙计算与灵动转换​
  • 汽车启动原理是什么?
  • 水库现代化建设指南-水库运管矩阵管理系统建设方案
  • Linux环境变量的作用以及进程的虚拟地址原理
  • 【Tips】高效文献管理:Zotero 导入参考文献的多种方式详解
  • 【PyTorch动态计算图实战解析】从原理到高效开发
  • CSS in JS:机遇与挑战的思考
  • Java | 韩顺平 循序渐进学Java自用笔记---OOP高级
  • EPSG的作用