什么是 MCP?与 AI Agent 的关系是什么?
首先先回答一下什么是MCP?
如果你经常使用像Claude这样的大语言模型,你可能已经注意到它们虽然强大,但有时候也有局限性,比如无法获取实时信息或访问特定工具。
模型上下文协议(Model Context Protocol,简称MCP)就是为了解决这个问题而诞生的!简单来说,它是一种让AI能够"伸出手"使用外部工具和服务的协议,让AI变得更加强大和实用。
想象一下,你正在和AI助手聊天,突然想让它帮你搜索最新的新闻,或者查看你的文件,甚至操作数据库——有了MCP,这些都成为可能!
MCP的工作原理:
服务器(Server):提供特定功能的工具,比如网页搜索、文件访问等
客户端(Client):在AI应用中与服务器保持连接
传输(Transport):客户端和服务器之间的通信方式
主机(Host):启动连接的应用程序,如Cherry Studio或Claude Desktop
那什么是AI Agent?
基本定义与核心特征
AI Agent(Artificial Intelligence Agent,人工智能代理)是一种能够自主感知环境、进行决策并执行任务的智能实体。其核心特征在于将大语言模型(LLM)作为“大脑”,结合规划、记忆、工具调用等能力,实现复杂任务的自动化处理。例如,用户只需输入“取消订阅服务”,AI Agent即可自主分解步骤、调用支付接口完成操作。
核心特征:
- 自主性:无需人工持续干预,可独立完成任务。
- 交互性:通过传感器、文本或语音与环境动态交互。
- 目的性:具备明确目标导向,如优化客户服务效率或实现自动驾驶。
- 适应性:通过机器学习调整策略,适应环境变化。
- 多模态能力:支持文本、语音、图像等多种输入输出形式。
目前AI Agent都是以智能体形式存在。
MCP与AI Agent的关系:从“智能体”到“行动者”
(1) 赋予AI Agent“动手能力”
- 传统AI的局限:多数AI模型(如ChatGPT)只能生成文本或建议,无法直接操作外部系统(如发送邮件、控制无人机)。
- MCP的突破:
通过MCP,AI Agent可调用工具链完成闭环任务。
示例:
用户请求“通知团队明天下雨并推迟会议”:- Agent理解意图 → MCP调用
get_weather
接口确认天气 → MCP调用check_calendar
读取日程 → MCP调用send_email
发送通知。
- Agent理解意图 → MCP调用
(2) 扩展Agent的物理与数字边界
- 脱离纯虚拟交互:
结合MCP,Agent可以通过IoT设备控制实体世界(例如通过MCP控制家庭灯光或工厂机器人)。 - 多模态能力融合:
MCP可整合视觉、语音等工具(如调用图像识别API分析照片,再通过语音合成播报结果)。
(3) 动态上下文感知与长期记忆
- 传统模型缺陷:大语言模型(LLM)的上下文窗口有限,且无法主动更新外部知识。
- MCP的增强方式:
- 实时访问外部数据库(如用户订单记录)、传感器数据(如实时交通流量)。
- 持久化存储交互历史,供Agent在后续任务中参考。
技术实现场景举例
场景1:智能医疗Agent
- Agent角色:诊断助手。
- MCP支持的调用链:
分析患者症状
→ 调用医学知识库 →推荐检查项目
→ 调用医院系统的预约API →生成报告
→ 调用邮件服务发送给医生。
场景2:企业流程自动化Agent
- Agent角色:财务审批助理。
- MCP支持的调用链:
接收发票图片
→ 调用OCR和验真API →匹配合同条款
→ 调用ERP系统发起付款 →记录区块链存证
。
场景3:家庭服务Agent
- Agent角色:生活管家。
- MCP支持的调用链:
识别用户指令“打扫房间”
→ 调用扫地机器人API → 检测清扫进度(IoT传感器) → 异常时调用维修服务API。
总结
MCP与AI Agent的实质关系是“赋能层”与“执行体”的协同:
- MCP作为协议层,将分散的工具和服务整合为AI可理解的“虚拟手脚”;
- AI Agent通过MCP突破纯文本交互的限制,进化为能感知、决策、行动的“智能体-执行体”。
未来,随着MCP的成熟,AI Agent可能像人类一样,通过工具链自由扩展能力边界,真正实现从“思考”到“行动”的闭环。
目前来说,Manus和扣子空间算是基于MCP协议做AI Agen。
MCP算是底层架构一种制作AI Agen的方式。