当前位置：首页 > ops >正文

我认知的AI宇宙系列第三期

ops 2025/7/1 21:41:39

我认知的AI宇宙系列第三期

[00:00:00]~[00:01:25]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=0]

大家好，我是王自如！欢迎来到《我认知的AI宇宙系列》第三期！今天我们要探讨一个非常重要且贴近生活的主题——AI Agent（智能体）。通过这个话题，我希望能带大家深入理解AI如何从一个“回答问题”的工具，进化成为能够主动思考、规划并执行任务的“超级助手”，真正走进我们的日常生活。

前几天，我看到一位网友的留言，他说AI的训练和成长过程很像教小孩：从一张白纸到学会说话、识字，再到能流畅交流。这是一个细心培育的过程，我非常认同。但即便如此，这个“孩子”可能还无法成为对社会有贡献的“人才”，甚至连帮你打瓶酱油都做不到。那么，如何让AI突破局限，成为独当一面的“有用之人”呢？答案就在于我们今天要讲的AI Agent。

接下来，我会以老师的身份，用通俗易懂的方式，带你一步步拆解AI Agent的奥秘，结合具体案例让你感受到它的强大潜力。准备好了吗？让我们开始吧！

什么是AI Agent？

[00:01:25]~[00:07:24]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=85]

重新理解“Agent”的含义

[00:01:25]~[00:04:09]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=85]

“Agent”这个词在中文里常被翻译为“智能体”，听起来有点抽象，容易让人摸不着头脑。所以，我们不妨回到英文原意来理解。Agent在英文中有多种含义，比如“中介”“代理人”“经纪人”，甚至在某些语境下指“特工”或“间谍”（像FBI Agent）。但今天我们聚焦它最核心的含义——经纪人或代理人。

想象一下，如果你是一位明星或足球运动员，你的经纪人会做什么？他们的核心职责可以总结为三点：

规划你的职业生涯：帮你制定发展路线，甚至影响你的职业高度。
链接资源：为你对接品牌、俱乐部等外部资源，促成合作。
代办事务：处理你不方便亲自出面的事情，比如谈判或日常琐事。

AI Agent在AI世界里的角色，与现实中的经纪人高度相似。它具备以下三大能力：

主动思考和规划：根据你的需求，制定行动方案。
连接外部资源：调用工具、数据或服务来完成任务。
代替你执行任务：自动完成具体工作，解放你的时间。

简单来说，AI Agent不是某个公司的软件名称，而是一种具备自动化判断、规划和执行能力的AI机制统称。只要一个AI工具能独立帮你完成复杂任务，我们都可以称它为广义的AI Agent。

AI Agent ≠ 传统语音助手

[00:04:09]~[00:07:24]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=249]

你可能会说：“这不就是Siri或小爱同学吗？”其实，这个说法对也不对。让我们回顾一下传统语音助手（如早期Siri）的工作原理。

在AI大模型出现之前，Siri本质上是一个语音脚本系统。比如你说“播放音乐”或“定闹钟”，它只是触发苹果预设在系统里的脚本。这些脚本由厂商提前写好，靠你的语音指令激活。但问题在于，厂商不可能穷尽所有使用场景，用户的需求稍复杂一点，Siri就“傻”了。

为了弥补这一点，苹果推出了**Siri Shortcut（捷径）**功能，允许用户自定义脚本。但如果你用过就知道，设置一个快捷方式超级麻烦：要选App、编辑动作、设置规则、命名……对普通用户来说，这简直是“反人类”。即使是像我这样的iOS爱好者，也很难把Siri Shortcut玩到极致。所以，传统语音助手虽然有点“智能”，但远达不到AI Agent的标准。

大模型时代的变化

[00:06:28]~[00:07:24]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=388]

随着大模型的出现，语音助手正在向真正的AI Agent进化。比如，苹果最近发布的Apple Intelligence，虽然仍叫“Siri”，但后端机制已完全重塑。它接入了大模型，能理解更复杂的语义，调用手机内的多种资源（如日历、邮件），完成更复杂的任务。

一句话总结：在大模型之前，语音助手只是脚本工具；有了AI Agent机制，它们正在变成真正的智能助手。

AI Agent的工作机制

[00:07:24]~[00:23:38]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=444]

要理解AI Agent的强大之处，我们需要拆解它的工作流程。这个流程可以用一个“万能公式”概括：大模型 + Agent + MCP（工具调用） + 外部服务。听起来复杂？别担心，我们用一个简单的场景来解释。

案例1：帮你叫车去饭局

[00:08:00]~[00:14:32]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=480]

假设现在是下午6点，你有一个7点的饭局。你对AI说：“好累，不想动，一会儿吃饭打车去吧。”AI Agent会如何处理这个需求？让我们一步步拆解：

大模型：翻译你的意图
- 你的语音进入大模型，它首先解析你的真实意图：你想打车去饭局。
- 但信息不完整：几点打车？去哪儿？大模型通过**函数调用（Function Call）**查看你的日历，发现7点有饭局，地点是某餐厅，对象是某人。
- 基于这些上下文信息，大模型生成一个“工单”：主诉求是叫车，次诉求是确定最晚出门时间。
Agent：制定行动方案
- Agent收到大模型的工单，开始制定具体计划。它会思考：
  - 要查从家到餐厅的距离和耗时。
  - 要了解周边网约车的情况（数量、响应时间）。
  - 要预留缓冲时间，避免迟到。
- Agent调整优先级，先查询耗时（假设15分钟），再查网约车（假设5分钟响应），得出结论：最晚6:40下单，6:30出门。
MCP：执行具体任务
- MCP（工具调用模块）像一个“超级工具箱”，负责对接外部服务。
- 它调用地图API，确认从家到餐厅需15分钟；调用网约车API，确认5分钟可接单。
- 这些信息反馈给Agent，Agent综合后决定行动方案。
大模型：人性化反馈
- Agent将结论回传给大模型，大模型用温暖的语言包装：“小主人，路程15分钟，我6:40帮你叫好车，6:30出门完全来得及，慢慢歇着吧！”

整个过程在几秒内完成，给你满满的便利感和情绪价值。注意，Agent可能不会立刻下单，而是等你确认，或者直接下6:40的订单，具体取决于开发者的设计。

graph TDA[用户: "好累, 想打车去饭局"] --> B[大模型]B --> C["解析意图: 叫车 + 确定时间"]B --> D["调用日历: 7点饭局, 地点明确"]C --> E[Agent]D --> EE --> F["规划: 查耗时 → 查网约车 → 预留缓冲"]E --> G[MCP]G --> H["地图API: 15分钟"]G --> I["网约车API: 5分钟响应"]H --> EI --> EE --> J["结论: 6:40下单, 6:30出门"]J --> BB --> K["反馈: 6:30出门, 已安排"]

案例2：更模糊的需求（炼狱级升级）

[00:18:02]~[00:23:38]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=1082]

现在我们把场景升级：你只说了一句“好累，不想动”，没有提打车，也没说要去哪儿。这对传统语音助手来说简直是“灾难”，但AI Agent能搞定！来看看它怎么推理：

大模型：深度推理
- 大模型捕捉到你的情绪（疲惫、不想动），推测你可能有必须完成的行动（否则不会抱怨）。
- 它调用日历、邮件、笔记等资源，发现7点有饭局，锁定上下文：你需要去饭局，但不想动。
- 通过情绪侦测（分析语音向量），大模型推测你可能想要更便利的出行方式（大概率是打车）。
- 结论：你想知道最晚出门时间，且可能有打车需求。
Agent：优化行动
- Agent收到工单，结合你的习惯（比如常从小区东门上车），制定方案：
  - 查耗时（15分钟）。
  - 查网约车（5分钟响应）。
  - 预留缓冲，得出6:30出门、6:40下单。
- 它还将上车地点设为东门，提升体验。
MCP：待命执行
- MCP准备好调用网约车API，一旦你确认需求（如“好的，叫车吧”），即可下单。
大模型：温暖回应
- 大模型反馈：“小主人，我猜你是要去7点的饭局吧？路程15分钟，我建议6:30从东门出发，车我随时帮你叫，歇会儿吧！”

这个过程依然在几秒内完成，但人性化和智能程度大幅提升。AI不仅理解了模糊需求，还通过情绪和习惯分析，提供了贴心服务。

graph TDA[用户: "好累, 不想动"] --> B[大模型]B --> C["情绪侦测: 疲惫, 不想行动"]B --> D["推理: 需行动但想延迟"]B --> E["调用日历/邮件: 7点饭局"]C --> F[Agent]D --> FE --> FF --> G["规划: 查耗时 → 查网约车 → 设东门上车"]F --> H[MCP]H --> I["地图API: 15分钟"]H --> J["网约车API: 5分钟响应"]I --> FJ --> FF --> K["结论: 6:30东门出发, 6:40下单"]K --> BB --> L["反馈: 6:30东门出发, 随时叫车"]

多智能体系统（Multi-Agent System）

[00:23:38]~[00:25:32]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=1418]

通过以上案例，你可能觉得一个AI Agent已经很强大了。但现实生活中，需求千变万化，单一Agent很难应对所有场景。于是，**多智能体系统（Multi-Agent System）**应运而生。

什么是多智能体系统？

[00:23:38]~[00:24:27]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=1418]

简单来说，就是让多个Agent各司其职，组成一个“团队”，协同完成复杂任务。每个Agent专注于某个领域（比如出行、购物、办公），但通过协作机制形成一个高效系统。

架构类型

[00:24:27]~[00:24:47]-[https://www.bilibili.com/video/BV1EhKBzMExF/?t=1467]

多智能体系统有多种设计方式：

中心化架构：有一个“主Agent”（像大秘书），负责接收用户需求，然后分配给专业Agent（出行Agent、购物Agent等）。就像公司里有个总管，分派任务给各部门。
去中心化架构：多个Agent平等协作，共同处理需求，类似一个“群聊”模式。
树状结构：Agent按层级分工，层层传递任务。