李宏毅《生成式人工智能导论》 | 第9讲 AI Agent
文章目录
- 大模型未来趋势:以大型语言模型打造的Agent
- AI Agent运行的可能原理
- 有记忆的ChatGPT
大模型未来趋势:以大型语言模型打造的Agent
人类需要做多步骤的复杂任务,AI可以做到这件事吗?
如果可以我们将其称为AI Agent
,这里指AI可以做多步骤复杂任务,可以做计划能够修改计划。
目前已有的AI Agent例子
2022年7月,在ChatGPT之前,就有研究由语言模型操控机器人。
23年12月有人研究用大型语言模型开自驾车。
AI Agent运行的可能原理
理想中AI Agent应该具备的能力
Agent有一个终极目标,可能有记忆,记忆里存储过去和环境互动时获得的经验。
1.Agent从外界环境中了解外界的状态(比如通过文字输入、看见的图片、音频、触觉等)
2.根据终极目标、记忆和状态,Agent产生一个计划(短期目标)-达到终极目标之前,需要采取的行动
3.根据计划,Agent执行行为
4.Agent行动后,会对外界环境产生影响,会改变当前外界环境的状态。- 可以根据外界环境的状态学习到新的经验修改Agent的记忆,有可能修改原来的计划 - 可以通过反思修改原来的计划或者获取到新的经验(参考论文ReAcr和Reflexion)
具体的例子可以看老师的视频:https://www.bilibili.com/video/BV1XS411w7qr
当外界环境发生变化时,Agent产生新的行动计划
Agent反思之后,得到一些经验,经验会影响行动的决策。
有记忆的ChatGPT
有短期记忆的ChatGPT,ChatGPT没有长期记忆,只能记忆发生在同一个对话里的内容。如果开启新对话,ChatGPT不会有之前对话的记忆。
ChatGPT尝试去做有长期记忆,目前(25年6月)以已经实现了持久记忆功能Memory。持久记忆允许在不同会话之间保留信息,该功能支持的模型主要版本时GPT-4 Turbo(及以后)。
老师课程里介绍有记忆的ChatGPT可能的原理
当用户和ChatGPT对话结束后,ChatGPT可能会对对话的关键信息进行摘要,存储在记忆中。
当开启新对话时,过去对话的内容虽然不知道,但是根据记忆里的摘要信息可以知道之前对话的主要内容。
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与大语言模型(LLM)生成能力的技术架构,旨在通过动态引入外部知识提升模型回答的准确性、时效性,并减少“幻觉”(即模型虚构信息)问题