当前位置：首页 > web >正文

AI Agent笔记--读腾讯技术公众号

web 2025/7/27 8:18:26

参考内容：这篇AI Agent漫游指南，带你建立全面的科技史观原文细节丰富，推荐阅读！

1、Agent历史观

2、AI Agent 的核心构成

定义 AI Agent = 大模型 + 记忆 + 工具使用 + 自主规划
1. 误区澄清：非所有聊天机器人都是Agent（需满足自主决策）。
四大核心能力
1. 记忆：多轮对话历史管理（面临上下文token限制挑战）。
2. 工具使用
  - 早期：Function Call - 教大模型如何返回工具使用命令的工作
  - 当前：MCP协议统一工程侧工具调用标准（与Function Call配合）。
3. 规划：思维链（CoT）拆解复杂任务（主流）、思维树（ToT）、思维图（GoT）。
4. 反思：ReAct框架（Reasoning-Acting循环：思考→行动→观察→回答/重试）。

* Function Call是大模型返回调用工具指令的能力，MCP是Agent在工程侧的程序具体执行调用工具的手段，一个是说，一个是做。

* 在有MCP之前，Agent收到大模型的Function Call指令后通过各种方法去调用外部的各种资源和服务的，如要自己实现读写文件，查数据库，调搜索接口等等，这些方法可以千差万别，开发过程长，成本高。

* 而MCP的出现，统一了工程侧调用工具的规范，它服务的厂商按照MCP Server的标准提供服务，Agent的程序只需要统一使用call_tool这个MCP Client的功能来执行调用即可，一下子节省了大量的工具适配的工作。

3、Agent 的挑战与优化方案

主要瓶颈
1. 幻觉问题：多次调用导致正确率骤降（如单次90% → 四次60-70%）。
2. 记忆管理：上下文限制、注意力有效性衰减、相关记忆召回不准。
三大优化方向
1. 固化工作流（Workflow）：牺牲灵活性提升确定性（非Agent本质）。
2. 超越ReAct框架
  1. Plan and Execute：全盘规划→执行→重规划。
  2. ReWOO：解耦规划(Planner)、执行(Worker)、求解(Solver)，减少token消耗。
  3. LLMCompiler：并行调度工具，动态生成任务DAG。
3. 多Agent协同
  1. 类型：社会协同模拟型（如斯坦福小镇） vs 任务导向型（如MetaGPT）。
  2. 框架：MetaGPT（SOP流程）、AutoGen（人机协作）、CrewAI（角色分工）。
  3. 失败原因：系统设计缺陷（37.2%）、协作错位（31.4%）、验证缺失（31.4%）

4、技术范式变革：模型即产品

类Agent模型崛起（2024-2025）
1. O1（OpenAI）：强化学习驱动，隐藏推理过程（商业保护）。
2. DeepSeek R1：公开思维链，通过GRPO算法降低训练成本。
3. 关键结论：强化学习成为后训练Scaling Law，替代单纯扩大参数。
“真Agent”模型（下半场） 1
1. DeepResearch（OpenAI）：端到端训练垂直场景Agent（如研报生成），实现“模应一体”。
2. 工程化Agent的共存形态：
  - 纯工程Agent（低成本快速验证）。
  - SFT Agent（节省提示词成本）。
  - 端到端Agent模型（大流量垂直场景）。
社会化协同
1. A2A协议实现Agent身份认证与全球协作（如个人Agent代表用户订机票）。