当前位置：首页 > java >正文

AGILE：开启LLM Agent强化学习的创新框架

java 2025/7/1 12:45:54

在大语言模型（LLMs）蓬勃发展的今天，基于LLMs构建的智能体成为研究热点。但如何将各组件整合优化仍是难题。本文提出的AGILE框架给出了创新解法，它不仅统一多组件，还让智能体性能超越GPT-4。想知道它是如何做到的吗？快来一探究竟！

论文标题
AGILE: A Novel Reinforcement Learning Framework of LLM Agents
来源
arXiv:2405.14751v2 [cs.LG] 5 Nov 2024
https://arxiv.org/abs/2405.14751

文章核心

研究背景

大语言模型（LLMs）展现出强大能力，推动了基于LLMs的智能体（LLM agents）发展，但目前尚不清楚如何将规划、反思、工具使用等组件整合到统一框架并进行端到端优化。

研究问题

缺乏统一框架整合和优化LLM智能体的多个组件，如规划、反思、工具使用等，各组件间协同工作机制不明确。
现有复杂问答（QA）基准测试无法全面评估智能体结合所有模块和能力的表现，难以反映智能体在实际应用中的综合能力。
大语言模型存在幻觉、缺乏长尾知识等问题，在智能体中如何有效利用人类专家知识提升性能，同时平衡准确性和人力成本是挑战。

主要贡献

提出新强化学习框架：设计AGILE（AGent that Interacts and Learns from Environments）框架，实现智能体端到端学习。该框架让智能体可主动向人类专家寻求建议，处理复杂问题时能保证准确性，并从人类学习中提升适应新任务的能力。
开发新基准数据集：创建ProductQA数据集，包含88,229个问答对，涉及26个QA任务，涵盖多种问题类型，可全面评估智能体处理历史信息、使用工具、与人交互、自我评估和反思等能力。
验证框架有效性：在ProductQA、MedMCQA和HotPotQA等多个任务上实验，结果表明基于7B和13B LLMs且经近端策略优化算法（PPO）训练的AGILE智能体性能优于GPT-4智能体。

方法论精要

1. 核心算法/框架：AGILE框架由LLM、记忆、工具和执行器四个模块构成。将智能体构建视为强化学习问题，LLM作为策略模型，执行器根据LLM指令实现状态转换，环境给出奖励，通过这种方式实现智能体与环境的交互和学习。

2. 关键参数设计原理：在策略学习中，无论是模仿学习（IL）还是强化学习（RL），都将损失计算限定在动作令牌上，并使用当前LLM上下文$ c_{i} $作为注意力掩码。对于长轨迹问题， * * 通过将轨迹划分为较小片段，并提出会话级优化算法 * * ，引入代理奖励$ \overline{r}{k}\left(\tau{i}\right) $ ，简化优化过程。

3. 创新性技术组合：结合LLM、记忆、工具和执行器，使智能体具备推理、规划、反思和寻求建议等能力。例如，智能体可利用记忆模块检索历史信息，使用工具模块进行产品搜索等操作，遇到难题时向专家寻求建议并通过反思积累知识。

4. 实验验证方式：在ProductQA、MedMCQA和HotPotQA三个复杂QA任务上评估AGILE智能体。选择GPT-3.5、GPT-4等作为基线模型，对比直接提示模型回答（如gpt3.5-prompt、gpt4-prompt）和在AGILE框架内提示模型回答（如agile-gpt3.5-prompt、agile-gpt4-prompt）的结果。同时，通过调整寻求建议成本、进行消融研究等方式验证框架和各模块的有效性。

实验洞察

1. 性能优势：在ProductQA数据集上，agile-vic13b-ppo相比agile-gpt4-prompt，短答案平均总得分相对提高9.2%，长答案提高5.0%；在MedMCQA数据集上，agile-mek7b-ppo准确率达到85.2%，相比基线模型Meerkat-7b-prompt提升31.8%，超过当前最优模型gpt4-Medprompt（79.1%）；在HotPotQA数据集上，agile-vic13b-ppo准确率为67.5%，相比最强基线ReAct-gpt4-prompt提升40.0%。

2. 消融研究：在ProductQA数据集上的消融实验表明，禁用寻求建议功能导致准确率下降10.7%，总得分降低5.0%；移除工具使用功能使寻求建议频率增加25.9%，总得分降低9.3%；去除记忆或反思能力也会使寻求建议频率上升，总得分下降，验证了各核心模块的重要性。

本文由AI辅助完成。

查看全文

http://www.xdnf.cn/news/2923.html