当前位置: 首页 > news >正文

读书笔记:《动手做AI Agent》

    《动手做AI Agent》 黄佳 著

    个人理解:
    - 认识和学习AIGC
    - 理解提示词的建构和使用
    - 使用Agent和Template
    - 提供了详细的代码样例,但个人未深入代码研究
    - 将AI Agent作为工具,辅助和协助个人工作
    - 公开课:使用langchain进行大规模开发

    人工智能AI:存储、计算、自我学习;稳定性、可靠性、伦理及隐私问题  
    生成工人工智能 Generative AI,GenAI:数据、算力、算法
    人工智能生成内容AIGC,AI Generated Content
    通用人工智能:artificial general intelligence,AGI
    大语言模型 large language model, LLM
    检索增强生成 RGA,检索和整合信息以及生成文本的能力;结合检索和生成的NLP模型;结合信息检索和文本生成的方法
    智能体 Agent:能自主操作和做出决策的系统;接受清晰、明确的指令(有效提示词工程);不仅是内容生成,还能整合LLM、big data,从而执行各种任务,完成不同工作;
    大模型微调 finning LLM
    提示词工程 prompt engineeing
    思维链 chain of thought, COT
    推理并行动 ReAct,reasoning and acting
    问题解决 problem decomposition
    具身智能 embodied intelligence;理解所处环境,并能进行有效物理交互
    PDDL,planning demain definition language
    Token,令牌,子词;大模型将文本拆分成token进行训练和推理,用来衡量API使用量(英语中1000个token相当于750个单词)
    langchain / liamaindex / open API

    工具,聊天机器人,协同工作,agent,智能
    生命是一个自我复制的信息系统,而信息是塑造这个处理系统的行为和结构的力量
    一切反应用演变自然选择驱动
    不仅可以设计自己的软件,还能根据需要改造自己的硬件
    Agent:智能体或智能代理,具有一定程度自主性的人工智能系统;能够感知环境(接受来自环境的信息),做出决策并采取行动的系统(无法解决超出知识库记录的任何问题,但可以一本正经的胡说八道,AI幻觉);
                 代理:有意识行动的表现,指有欲望、信念、意图和行动能力的实体
                 Agent能根据当前任务和环境条件选择最合适的工具,包括分析任务需求,评估可用工具性能,预测工具使用的潜在结果
    元学习:专注学习如何学习,利用已获得的一般知识和策略,减少对大量样本的依赖
    通用推理能力,反馈学习,从静态执行者向动态决策者;当遇到新的场景或需要特定领域信息时,可以依赖广阔的知识基础来有效的导航和响应
    泛化:模型对未见过的数据做出准确预测或合理反应的能力,自我学习能力
   语言交互,理解指令、提出问题、表达观点和情感、进行复杂对话
   替人类做一些简单、无聊的例行工作,转向协助处理重复性工作
   AI与现有业务紧密结合,本质在于替代或增强人类的工作
   多agent协作,每个agent专注某个特定领域或任务

   Agent架构:规划planning(子目标分解 subgoal decomposition,连续思考即思维链,自我反思和批评 self critics,对过去行动的反思 reflection)
                       记忆 memory,工具 tools,执行 action
                      规划、工具、记忆、执行
   结构化和分步方法:接收任务 task receiving
                                   记忆更新 memory update
                                   记忆检索 memory retrieval
                                   任务规划 task plan
                                   工具执行 tool execution(外部工具调用)
                                   总结 concluding
   自我反思:ReAct模型与环境交互
                     Reflexion动态记忆和自我反思,回顾过去提高推理
                     CoH,chain of hindsight, 反馈输出改进自己
    多样化数据集上的广泛预训练,通过调用和利用工具提升能力和效率
    推理引擎,React框架:围绕理解和回应用户输入为基本思路,让大模型收到任务后进行思考,然后决定采取的行动,如何从感知的环境中抽取信息,规划任务,利用过去经验,调用工作
                                          核心是将推理与行动紧密结合,在动态和不确定的环境中,有效的决策需要持续的学习和适应,快速将推理转化为行动
                                          观察,思考,行动,再观察
    提示词工程 prompt engineering:设计和优化输入以指导大模型产生特定输出的方法
                                                          创造性的构建、测试和优化用于大模型的提示,包括问题、陈述或指令,引导大模型提供所需信息(文本选择,格式,风格,上下文提示),以更快理解问题本质
    提示词模板 prompt template:一个带有输入变量和模板字符串的结构,用于生成文本提示,使用特定格式回答问题
                                                    input_variables,变量列表,提示时以实际数据替换
                                                    template,定义提示格式的字符串,用input_variables替换template的占位
                                                    行动,观察,思考,最终答案 -- PDCA?
    更结构化和高效的方式处理复杂查询,执行中自我调整和优化

    概念,模式,想法,事件在数据中以复杂的方式呈现
    避免单一AI目标可能带来的意想不到的负责效果
    Temperature:影响输出随机性的参数,用于控制生成内容的随机性和创造性。值越高,输出越随机,反之输出越确定
    大模型应用于行业,需要数据训练过程:重新训练或从头构建模型、微调模型、动态提示(如RAG)、简单提示工程
    RAG实现:用户提出查询query --> Agent搜索相关信息 --> 检索retrieval信息 --> 相关信息传给大模型 --> 大模型生成generate响应 --> 回答用户请求response 
    交互,有助于克服链式思考推理中常见的幻觉和错误传播问题
    大模型LLM,提供逻辑引擎,负责生成预测和处理输入
    提示prompt,负责指导模型,形成推理框架
    外部工具external tools,数据清洗工具,搜索引擎,应用程序
    Agent执行器,负责调用合适的外部工具,并管理整个流程
    外部工具调用,让agent能调用正确的工具,以最有用的方式描述这些工具
    Agent应首先规划要采取的步骤,然后逐步执行
    零样本学习,泛化能力,利有已有知识和理解来推断新的概念或行务
    分阶段方法,使问题解决过程更清晰,有助于提高解决方案的质量和效率,结构化、逻辑清晰
    Plan and Execute:将整个任务分解为更小、更易管理的子任务
                                    通过更详细的指标,提高生成推理步骤的质量和准确性
                                    计划理解问题,分析任务结构,制定详细解决方案,执行 根据计划步骤解决问题
    RAG检索pipeline:数据连接和加载 --> 转换 --> 嵌入形成向量形式 --> 存储到系统 --> 检索
    词嵌入是大模型应用功能的核心
    通过提示过程将目标分解为子任务,并自动链接多个任务
    大模型的成功很大程度上依赖于通过用户的输入来引导对话生成,但这种引导费时费力,而且对于非领域专家来说,创建具体的任务提示是具有挑战性和耗时的 -- 交给专业人士,角色,执行复杂、细致的交互 
    多Agent,可以是协作,也可以竞争,构建下一代大模型应用,可组合、可定制
    通过模拟不同角色,精心安排SOP模拟流程,code=sop(team)
    从一行需求出发,输出用户帮事,竞争分析,需求,数据结构,API,文档
    数据与知识解耦,意味着没有大量的本地数据,AI仍能助力企业和个人高效、便捷的使用服务,颠覆传统的数据飞轮和网络效应 -- 数据飞轮是一种反馈循环机制,通过从交互或流程中收集数据,持续优化 AI 模型,进而产生更优的结果和更有价值的数据,数据飞轮:定义与工作原理 | NVIDIA 术语表
    AI将:理解人类,协同人类,启发人类
 


请为《动手做AI Agent》写一篇200字左右的总结

概述

《动手做AI Agent》是一本面向开发者和技术爱好者的实践指南,旨在帮助读者从零开始构建智能代理系统。书中通过具体案例和代码示例,系统地介绍了AI Agent的核心概念、技术框架及实现方法。

核心内容

该书围绕AI Agent的三大核心能力展开:感知环境、决策规划和执行动作。通过自然语言处理(NLP)、机器学习(ML)和强化学习(RL)等技术,详细讲解了如何赋予Agent交互与学习能力。书中还涵盖了多模态数据处理、知识图谱集成等高级主题。

实践特色

强调动手实践,每章配套Python代码和开源工具(如LangChain、AutoGPT),指导读者逐步实现聊天机器人、自动化任务代理等应用。同时探讨了伦理问题和性能优化策略,为实际部署提供参考。

适用人群

适合具备Python基础、对AI应用开发感兴趣的读者,可作为AI Agent领域的入门与实践手册。

《动手做AI Agent》课程以实践为导向,系统讲解了AI Agent的核心概念、技术框架与开发工具。课程从感知、决策、执行三大模块切入,结合OpenAI API、LangChain、LlamaIndex等工具,通过自动化办公、智能调度、多Agent协作等7个实战项目,帮助学员掌握从理论到落地的全流程开发能力。课程还强调了记忆机制、工具调用、风险控制等关键技术点,并展望了AI Agent在跨领域协作与自主进化方向的发展前景,为学员搭建了AI应用开发的完整知识体系。

http://www.xdnf.cn/news/1146583.html

相关文章:

  • Android性能优化之UI渲染优化
  • LP-MSPM0G3507学习--05中断及管脚中断
  • CMake指令:常见内置命令行工具( CMake -E )
  • math.h函数
  • CCF编程能力等级认证GESP—C++3级—20250628
  • 20250718-3-Kubernetes 应用程序生命周期管理-Pod对象:存在意义_笔记
  • MyBatis-Flex代码生成
  • jvm分析篇---1、先认识下dump文件
  • b-up:Enzo_Mi:深度学习基础知识
  • 【C语言进阶】题目练习(2)
  • 【51】MFC入门到精通——MFC串口助手(一)---初级版(初始化、串口设置、修改参数、打开/关闭、状态显示),附源码
  • 机器学习基础:线性回归算法详解(原理+代码+实战)
  • Proto文件从入门到精通——现代分布式系统通信的基石(含实战案例)
  • 数据库模型异常问题深度解析:冗余与操作异常
  • 柴油机活塞cad【4张】三维图+设计说明书
  • 小架构step系列18:工具
  • 《每日AI-人工智能-编程日报》--2025年7月18日
  • 【洛谷P1417】烹调方案 题解
  • SQL注入基础尝试
  • 71 模块编程之新增一个字符设备
  • ArcGIS Pro+PS 实现地形渲染效果图
  • 上网行为管理-web认证服务
  • 【C++基础】--多态
  • ThreadLocal 在 Spring 与数据库交互中的应用笔记
  • 北京-4年功能测试2年空窗-报培训班学测开-第五十四天
  • Kubernetes Pod深度理解
  • 大模型格式
  • 外部DLL创建及使用
  • UVC for USBCamera in Android - 篇二
  • 腾讯 ChatBI 调研