大模型Agent
一 大模型Agent是什么
(一)大模型Agent是指基于大语言模型的,能使用工具与外部世界进行交互的计算机程序
感知(Perception):
● 家庭助理通过摄像头、麦克风、传感器等设备获取家庭成员的活动信息和环境状态。例如,它可以“看到”房间里的光线情况,听到你和它的对话,感知到家里的温度等。
思考(Deliberation/Reasoning):
● 家庭助理根据获取的信息来“思考”下一步应该做什么。如果你说“我有点冷”,它会从数据库中查询当前的温度数据,结合你的偏好(已存储或通过对话学习得来的),决定是否应该调整温度。
● 如果它检测到今天是垃圾回收日且垃圾桶已满,它会提醒你或自动安排机器人将垃圾桶移到指定位置。
行动(Action):
● 家庭助理可以执行一些具体的行动来响应你的需求。例如,它可以调整温度,打开或关闭窗帘,启动车库门,甚至下单购买你常用的家庭用品。
(二)让Agent具备记忆能力
1 短期记忆(Short-Term Memory)
类似电脑的内存的信息一旦关机就没了
2 长期记忆(Long-Term Memory)
类似的存储的在硬盘中的数据长期存储
二 让Agent具备规划能力
1 任务分解
推理方法 | 流程 | 核心创新点 |
---|---|---|
基本输入输出(IO) | 输入直接得到输出,无中间推理步骤 | 无中间推理过程,简单直接基于训练知识输出 |
思维链(CoT) | 输入经一系列中间思维步骤推导得出输出 | 引入中间推理步骤,模拟人类逐步思考过程 |
多思维链(CoT - SC) | 输入产生多个独立思维链,评估打分后放弃负分链,选得分最高链的输出 | 利用多个独立思维链,通过评估择优输出,增加推理多样性 |
思维树(ToT) | 输入后思维呈树状分支,可从链上分支拓展新思维,评估中间思维,放弃不佳分支并回溯后输出 | 在多思维链基础上,以树状拓展推理分支,通过回溯探索更优解 |
思维图(GoT) | 输入后思维构成图结构,可进行思维聚合、循环优化、回溯,最终聚合思维得出输出 | 以灵活图结构组织思维,实现复杂的思维变换与整合 |
2 思维链
复杂问题分解成多个简单子问题,按逻辑顺序连接起来形成推理链条
3 思维树ToT
构建一个具有分支和选择的树形结构来处理复杂问题