AI Agent笔记--读腾讯技术公众号
参考内容:这篇AI Agent漫游指南,带你建立全面的科技史观 原文细节丰富,推荐阅读!
1、Agent历史观
2、AI Agent 的核心构成
-
定义
AI Agent = 大模型 + 记忆 + 工具使用 + 自主规划
-
误区澄清:非所有聊天机器人都是Agent(需满足自主决策)。
-
-
四大核心能力
-
记忆:多轮对话历史管理(面临上下文token限制挑战)。
-
工具使用
-
早期:Function Call - 教大模型如何返回工具使用命令的工作
-
当前:MCP协议统一工程侧工具调用标准(与Function Call配合)。
-
-
规划:思维链(CoT)拆解复杂任务(主流)、思维树(ToT)、思维图(GoT)。
-
反思:ReAct框架(Reasoning-Acting循环:思考→行动→观察→回答/重试)。
-
* Function Call是大模型返回调用工具指令的能力,MCP是Agent在工程侧的程序具体执行调用工具的手段,一个是说,一个是做。
* 在有MCP之前,Agent收到大模型的Function Call指令后通过各种方法去调用外部的各种资源和服务的,如要自己实现读写文件,查数据库,调搜索接口等等,这些方法可以千差万别,开发过程长,成本高。
* 而MCP的出现,统一了工程侧调用工具的规范,它服务的厂商按照MCP Server的标准提供服务,Agent的程序只需要统一使用call_tool这个MCP Client的功能来执行调用即可,一下子节省了大量的工具适配的工作。
3、Agent 的挑战与优化方案
-
主要瓶颈
-
幻觉问题:多次调用导致正确率骤降(如单次90% → 四次60-70%)。
-
记忆管理:上下文限制、注意力有效性衰减、相关记忆召回不准。
-
-
三大优化方向
-
固化工作流(Workflow):牺牲灵活性提升确定性(非Agent本质)。
-
超越ReAct框架
-
Plan and Execute:全盘规划→执行→重规划。
-
ReWOO:解耦规划(Planner)、执行(Worker)、求解(Solver),减少token消耗。
-
LLMCompiler:并行调度工具,动态生成任务DAG。
-
-
多Agent协同
-
类型:社会协同模拟型(如斯坦福小镇) vs 任务导向型(如MetaGPT)。
-
框架:MetaGPT(SOP流程)、AutoGen(人机协作)、CrewAI(角色分工)。
-
失败原因:系统设计缺陷(37.2%)、协作错位(31.4%)、验证缺失(31.4%)
-
-
4、技术范式变革:模型即产品
-
类Agent模型崛起(2024-2025)
-
O1(OpenAI):强化学习驱动,隐藏推理过程(商业保护)。
-
DeepSeek R1:公开思维链,通过GRPO算法降低训练成本。
-
关键结论:强化学习成为后训练Scaling Law,替代单纯扩大参数。
-
-
“真Agent”模型(下半场) 1
-
DeepResearch(OpenAI):端到端训练垂直场景Agent(如研报生成),实现“模应一体”。
-
工程化Agent的共存形态:
-
纯工程Agent(低成本快速验证)。
-
SFT Agent(节省提示词成本)。
-
端到端Agent模型(大流量垂直场景)。
-
-
-
社会化协同
-
A2A协议实现Agent身份认证与全球协作(如个人Agent代表用户订机票)。
-