当前位置: 首页 > web >正文

AI Agent笔记--读腾讯技术公众号

参考内容:这篇AI Agent漫游指南,带你建立全面的科技史观 原文细节丰富,推荐阅读!

1、Agent历史观

2、AI Agent 的核心构成

  1. 定义 AI Agent = 大模型 + 记忆 + 工具使用 + 自主规划

    1. 误区澄清:非所有聊天机器人都是Agent(需满足自主决策)。

  2. 四大核心能力

    1. 记忆:多轮对话历史管理(面临上下文token限制挑战)。

    2. 工具使用

      • 早期:Function Call - 教大模型如何返回工具使用命令的工作

      • 当前:MCP协议统一工程侧工具调用标准(与Function Call配合)。

    3. 规划:思维链(CoT)拆解复杂任务(主流)、思维树(ToT)、思维图(GoT)。

    4. 反思:ReAct框架(Reasoning-Acting循环:思考→行动→观察→回答/重试)。

* Function Call是大模型返回调用工具指令的能力,MCP是Agent在工程侧的程序具体执行调用工具的手段,一个是说,一个是做。

* 在有MCP之前,Agent收到大模型的Function Call指令后通过各种方法去调用外部的各种资源和服务的,如要自己实现读写文件,查数据库,调搜索接口等等,这些方法可以千差万别,开发过程长,成本高。

* 而MCP的出现,统一了工程侧调用工具的规范,它服务的厂商按照MCP Server的标准提供服务,Agent的程序只需要统一使用call_tool这个MCP Client的功能来执行调用即可,一下子节省了大量的工具适配的工作。

  

3、Agent 的挑战与优化方案

  1. 主要瓶颈

    1. 幻觉问题:多次调用导致正确率骤降(如单次90% → 四次60-70%)。

    2. 记忆管理:上下文限制、注意力有效性衰减、相关记忆召回不准。

  2. 三大优化方向

    1. 固化工作流(Workflow):牺牲灵活性提升确定性(非Agent本质)。

    2. 超越ReAct框架

      1. Plan and Execute:全盘规划→执行→重规划。

      2. ReWOO:解耦规划(Planner)、执行(Worker)、求解(Solver),减少token消耗。

      3. LLMCompiler:并行调度工具,动态生成任务DAG。

    3. 多Agent协同

      1. 类型:社会协同模拟型(如斯坦福小镇) vs 任务导向型(如MetaGPT)。

      2. 框架:MetaGPT(SOP流程)、AutoGen(人机协作)、CrewAI(角色分工)。

      3. 失败原因:系统设计缺陷(37.2%)、协作错位(31.4%)、验证缺失(31.4%)

4、技术范式变革:模型即产品

  1. 类Agent模型崛起(2024-2025)

    1. O1(OpenAI):强化学习驱动,隐藏推理过程(商业保护)。

    2. DeepSeek R1:公开思维链,通过GRPO算法降低训练成本。

    3. 关键结论:强化学习成为后训练Scaling Law,替代单纯扩大参数。

  2. “真Agent”模型(下半场) 1

    1. DeepResearch(OpenAI):端到端训练垂直场景Agent(如研报生成),实现“模应一体”。

    2. 工程化Agent的共存形态

      • 纯工程Agent(低成本快速验证)。

      • SFT Agent(节省提示词成本)。

      • 端到端Agent模型(大流量垂直场景)。

  3. 社会化协同

    1. A2A协议实现Agent身份认证与全球协作(如个人Agent代表用户订机票)。

http://www.xdnf.cn/news/16454.html

相关文章:

  • dify前端应用相关
  • Java中List集合对象去重及按属性去重
  • 学习随想录-- web3学习入门计划
  • Flutter开发实战之路由与导航
  • Flink是如何实现物理分区?
  • 39.Python 中 list.sort() 与 sorted() 的本质区别与最佳实践
  • C语言开发工具Win-TC
  • Python+Selenium+Pytest+POM自动化测试框架封装
  • C++高效实现AI人工智能实例
  • Flutter开发实战之原生平台集成
  • Flutter开发实战之动画与交互设计
  • 06-ES6
  • Ubuntu22.04提示找不到python命令的解决方案
  • Java 注解(Annotation)详解:从基础到实战,彻底掌握元数据驱动开发
  • 微信小程序 自定义带图片弹窗
  • Windows Server容器化应用的资源限制设置
  • 用户中心项目部署上线03
  • 基于FPGA的SPI控制FLASH读写
  • 服务器:数字世界的隐形引擎
  • JavaScript里的string
  • 使用Python实现单词记忆软件
  • Zookeeper的简单了解
  • 兼容性问题记录
  • Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现轮船检测识别(C#代码UI界面版)
  • 【C/C++】Undefined reference: memset_s
  • 港股历史逐笔十档分钟级订单簿行情数据分析
  • 黑屏运维OceanBase数据库的常见案例
  • 【算法】前缀和经典例题
  • Kubernetes 监控完全指南:PromQL 通用查询与最佳实践
  • Claude 4.0 终极编程指南:模型对比、API配置与IDE集成实战