当前位置: 首页 > backend >正文

AI Agents执行流程和决策流程学习

文章目录

  • 参考资料
  • Agents简介
  • Agents执行流程
  • Agent决策流程
    • 规划(Planing)
      • 子任务分解
    • 记忆(Memory)
    • 工具使用(Tools/Toolkits)
    • 思考并自我反思(Thinking and Self-Refection)

参考资料

  • Agent学习视频

Agents简介

  • 大语言模型,可以分析&推理,可以输出文字、代码、媒体,但是,无法像人类一样拥有规划思考、运行各种工具与物理世界互动的能力。
  • AI Agents是基于LLM能够自主理解、自主规划决策、执行复杂任务的智能体。Agent的设计目的是处理多步骤或需要外部数据源的复杂任务。
  • LLM:接受输入、思考、输出。Agents:LLM(输入、思考、输出)+记忆+工具+规划。

Agents执行流程

  • Agents流程图:
    在这里插入图片描述
  • 规划(Planning):智能体会把大型任务分解为子任务,并规划执行任务的流程;智能体会对任务执行的过程进行思考和反思,从而决定是继续执行任务,或判断任务完结并终止运行。
  • 记忆(Memory):记忆分为短期记忆和长期记忆。短期记忆,是指在执行任务的过程中的上下文,会在子任务的执行过程产生和暂存,在任务完结后被清空;长期记忆是长时间保留的信息,一般是指外部知识库,通常用向量数据库来存储和检索。
  • 工具使用(Tools):为智能体配备工具API,比如:计算器、搜索工具、代码执行器、数据库查询工具等。智能体可以借助工具与物理世界交互,解决实际的问题。
  • 执行(Action):根据规划和记忆来实施具体行动,涉及与外部世界的互动或通过工具来完成任务。

Agent决策流程

在这里插入图片描述

  • 场景:假设有一个智能家居系统,他的任务是根据家庭成员的需求调节室内环境,比如温度和灯光。Agent在该场景中的决策流程如下:
  1. 感知(Perception):家庭成员对语音助手说:“我感觉有点冷,能不能把温度调高一些?”。智能家居系统通过语音识别和情感分析技术“感知”到用户觉得房间温度太低,需要提高温度。
  2. 规划(Planning):系统根据用户的需求,规划出下一步行动,决定如何调节房间温度。系统可能会制定以下的计划:
    1. 检查当前的室内温度
    2. 根据用户的偏好和当前温度决定升高几度合适
    3. 调整温度设置,并通知用户
  3. 行动(Action):系统执行计划的行动,首先检查当前温度,如发现温度为20℃。根据用户偏好,将温度提高到23℃,并通过语音助手反馈给用户:“我已经将温度提高到23℃,请您稍等,温度正在逐渐上升。”
  4. 观察(Observation):系统观察房间温度变化和用户的反馈。如果用户几分钟后说“现在温度可以”,系统会感知到温度调节成功。如果用户还觉得冷,系统可能会调整计划,进一步提高温度。
  • 循环执行:在每个阶段,智能家居系统都可以更具环境变化和用户反馈调整操作。例如,如果调高温度后用户依旧觉得冷,系统可能重新规划,进一步调整温度设置。通过一系列的感知、规划、行动、观察,智能家居系统能够动态响应用户的需求,不断调整室内环境、直到用户感到属实为止。

规划(Planing)

  • 规划可以理解为观察和思考。例如,当我们开始一个任务的时候,我们的思维模式可能如下:
  1. 首先思考如何完成这个任务
  2. 然后审视手头的工具和计划使用的方法
  3. 如果任务复杂,我们回答任务进行拆分和规划
  4. 接着在执行任务的过程中,我们会对执行过程进行反思和完善,吸取教训完善后续的步骤
  • 基于人类的规划能力,智能体可以通过LLM的提供工程,为智能体赋予这样的思维能力。在智能体中,最重要的是让LLM具备如下两个能力:子任务分解、反思与改进

子任务分解

  • 通过LLM可以使智能体把大型任务拆分为更小的、更可控的子任务,从而有效完成复杂任务。
  1. 思维链(Chain of Thoughts/COT):思维链是一种比较标准的提示技术,能显著提升LLM完成复杂能力的效果。当我们对LLM要求一步一步思考时,LLM会把问题分解为多个步骤,一步一步思考和解决,使输出的结果更为准确。
  2. 思维树(Tree-of-thought/ToT):对CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS等算法来探索思维树,并进行前瞻和回溯。
    在这里插入图片描述

记忆(Memory)

  • 生活中的记忆机制
    • 瞬时记忆:记忆的最早阶段,提供在原始刺激后保留感觉信息(视觉、听觉)的印象能力。瞬时记忆通常只持续几秒钟。
    • 短期记忆:持续时间较短的记忆,能够暂时存储和处理有限数量的信息。例如,记住快递取件号直到取件完成。
    • 长期记忆:持续时间较长的记忆,可以存储大量信息。长期记忆可以分为显性记忆和隐性记忆。显性记忆,可以有意识地回忆和表达信息。隐性记忆通常是无意识的,设计技能和习惯,如开车和打字。
  • 智能体中的记忆机制
    • 形成记忆:大模型在大量包含世界知识的数据集上进行预训练。在预训练中,大模型通过调整神经元的权重来学习理解和生成人类语言,这可以被视为“记忆"的形成过程。通过使用深度学习和梯度下降等技术,大模型可以不断提高基于预测或生产文本的能力,进而形成世界记忆或长期记忆
    • 短期记忆:在当前任务执行过程中所产生的信息,比如某个工具或某个子任务执行的结果,会写入短期记忆中。记忆在当前任务过程中产生和暂存,在任务完结后被清空。
    • 长期记忆:长期记忆是长时间保留的信息。一般是指外部知识库,通常用向量数据库来存储和检索。

工具使用(Tools/Toolkits)

  • Agent可以通过学习调用外部API来获取模型权重中所缺少的额外信息,这些信息包括当前信息、代码执行能力和访问专有信息源等。
  • 掌握使用工具是人类最独特和重要的特质之一。为语言模型(LLM)提供外部工具来显著提升其能力,通过创造、修改和利用外部工具有助于突破LLM的认知限制。
    在这里插入图片描述

思考并自我反思(Thinking and Self-Refection)

  • 思考并自我反思(Thinking and Self-Refection)框架主要用于模型和实现负责决策过程,通过不断评估和调整,使系统能够学习并改进决策过程,从而在面对复杂问题做出有效决策。
    在这里插入图片描述
http://www.xdnf.cn/news/9369.html

相关文章:

  • 零基础设计模式——结构型模式 - 组合模式
  • RapidOCR4j项目学习
  • 润和星闪WS63E的MQTT示例程序存在的潜在问题
  • 经典查找算法合集(下)
  • 行为型:命令模式
  • 多语言实现插值查找算法
  • 理解vue-cli中的webpack
  • Minktec 柔性弯曲传感器,灵敏捕捉坐姿弓背、精准监测行走姿态,守护儿童背部健康,为科学健身提供数据支撑,开启职业健康与背痛 AI 干预新方向。
  • vue + ant-design + xlsx 实现Excel多Sheet页导出功能
  • 如何通过ETL对WebService进行调用
  • 顶会新方向:卡尔曼滤波+目标检测
  • Java 程序求圆弧段的面积(Program to find area of a Circular Segment)
  • Mico 1.33.1 | 解锁高级版 上千种自定义组件 动态壁纸
  • Java String函数的使用
  • 016搜索之广度优先BFS——算法备赛
  • word中表格拉不动以及插入图片有间距
  • MySQL的参数 innodb_force_recovery 详解
  • vue3+element-plus el-date-picker日期、年份筛选设置本周、本月、近3年等快捷筛选
  • JavaEE初阶-网络编程
  • 使用Mathematica绘制随机多项式的根
  • OpenCV---findCountours
  • [java八股文][JavaSpring面试篇]SpringBoot
  • 前端Vue3列表滑动无限加载实现
  • 佰力博科技与您谈谈高温介电温谱仪如何保养
  • ROS2学习(15)------ROS2 TF2 机器人坐标系管理器
  • MySQL问题:MySQL中使用索引一定有效吗?如何排查索引效果
  • LeetCode-栈-最小栈
  • 现代 CSS 高阶技巧:实现平滑内凹圆角的工程化实践
  • UDP 传输时间(延迟)
  • 关于Oracle SGA内存抖动