当前位置：首页 > news >正文

初识AI Agent

news 2025/6/7 6:23:07

一、什么是AI Agent

AI Agent（人工智能代理）是指能够感知环境、自主决策并执行动作以实现特定目标的智能程序或系统。它不仅仅是简单的“自动化工具”，而是具备一定程度的自主性和适应性，甚至能通过学习和交互来优化行为。

常见应用举例：

Copilot 帮你写代码。
Siri 帮你自动回复邮件、安排日程。
物流仓库中的机器人分拣货物。
特斯拉 Autopilot 实时感知周围环境（摄像头+雷达），决策加速、刹车、变道。

通俗的来讲，AI Agent 就是利用AI来真正执行一些具体、能影响到现实的操作，而不仅仅只是回答问题，给出建议。

它有如下几个特点：

自主完成现实操作：无需人类实时干预，可独立完成任务（如自动回复邮件、调度日程）。
感知现实信息的能力：通过传感器、数据输入或API获取环境信息（如文本、图像、实时数据）。
决策与推理：基于规则、机器学习或大语言模型（如GPT-4）做出判断（例如谈判、路径规划）。
学习与适应：部分Agent能通过反馈改进性能（如推荐系统根据用户行为调整策略）。

二、AI Agent 是怎么影响到现实的呢？

决策完成后，Agent 需要通过物理或数字手段改变现实：

软件操作：

调用邮件服务器的API发送回复（如SMTP协议）。
自动点击图形界面按钮（RPA机器人流程自动化）。

硬件控制：

通过物联网（IoT）协议控制智能设备（如智能插座开关）。
工业机器人执行机械臂动作（如装配零件）。

例子：Agent 通过Python的smtplib库登录邮箱，将生成的回复内容发送给发件人，完成自动回复。

三、AI Agent 的执行流程

在做出最终操作动作之前，AI Agent还有两个步骤：感知环境（输入数据）、做出决策。
在做出最终操作动作之前，AI Agent还会收集执行结果并自我优化。

因此它的执行流程如下：

感知环境：AI Agent 需要先获取现实世界的信息，依赖多种输入方式：文本输入（网页爬虫、邮件API等）；传感器数据（例如温度传感器、摄像头、麦克风）等；API接口调用。
做出决策：Agent 根据输入数据做出判断，具体使用各种 AI 算法，例如机器学习、强化学习等等。
执行动作：通过调用接口发送邮件，或者控制智能设备。
学习优化：收集执行结果（例如用户的反馈）并自我优化，例如如果收件人标记回复为“无用”，Agent 可调整生成策略。

四、AI Agent 具体是如何做出的决策

下面是一个经典的示例，利用Q-learning算法（强化学习）来解决网格世界寻路的问题。

问题描述：
在一个4x4的网格世界中，Agent需要从起点(0,0)移动到终点(3,3)，避开陷阱(1,1)。每走一步得-1分，掉入陷阱得-10分，到达终点得+10分。

网格布局：
S . . .
. T . .
. . . .
. . . G
(S=起点, T=陷阱, G=终点)

做出决策：
通过强化学习算法来训练数据，并最终得到这个问题的决策机制。

五、一个AI Agent只能由一个固定的输入输出，那么针对不同的需求，只能开发不同的AI Agent吗？

是的，每个具体的场景都对应一个 AI Agent。

但是，它的核心框架是通用的。以强化学习（RL）为例，只需针对具体场景调整要素即可。

无论任务如何变化，RL的流程始终遵循：

状态（State）→ 动作（Action）→ 奖励（Reward）→ 新状态

差异仅在于这些要素的具体定义和实现方式。

例如自动回复邮件：

状态（State）：邮件内容 + 发件人历史记录 + 当前工作负载。
动作（Action）：调用API发送模板回复（如选择模板A/B/C）。
奖励（Reward）：用户满意度（如回复后是否被标记为“有用”）、响应速度（越快奖励越高）。

例如自动驾驶：

状态（State）：摄像头图像 + 雷达数据 + GPS位置 + 车速。
动作（Action）：方向盘转角（连续值，如-30°到+30°）；油门/刹车力度（连续值，如0%~100%）。
奖励（Reward）：安全奖励（避免碰撞）；舒适性惩罚（急刹车或急转弯扣分）；效率奖励（按时到达目的地）。

六、学习

强化学习（RL）核心概念：马尔可夫决策过程（MDP）、贝尔曼方程、Q-learning、策略梯度。
机器学习基础：监督学习与无监督学习（如分类、聚类）；深度学习（CNN、RNN、Transformer）。

查看全文

http://www.xdnf.cn/news/903799.html

面向开发者的提示词工程④——文本推断（Inferring）

数学建模期末速成聚类分析与判别分析

Caliper 配置文件解析：fisco-bcos.json

【计算机组成原理第5版】白、戴编著第六章总线系统课后题总结

大模型安全测试报告：千问、GPT 全系列、豆包、Claude 表现优异，DeepSeek、Grok-3 与 Kimi 存在安全隐患

LabVIEW工业级多任务实时测控系统

ComfyUI 文生图教程，进行第一次的图片生成

连续小波变换（Continuous Wavelet Transform, CWT）

【HarmonyOS 5】出行导航开发实践介绍以及详细案例

Spring Boot实现接口时间戳鉴权

ABAP设计模式之---“简单设计原则(Simple Design)”

Windows无限期暂停更新

模板方法模式：优雅封装不变，灵活扩展可变

web3-基于贝尔曼福特算法（Bellman-Ford ）与 SMT 的 Web3 DeFi 套利策略研究

贝叶斯深度学习！华科大《Nat. Commun.》发表BNN重大突破！

Science Robotics：UCLA 贺曦敏团队综述自主软体机器人

dexcap升级版之DexWild——面向户外环境的灵巧手交互策略：人类和机器人演示协同训练(人类直接带上动捕手套采集数据)

【Linux 学习计划】-- 简易版shell编写

【大模型LLM学习】Flash-Attention的学习记录

阿里140 补环境日志

华为 “一底双长焦” 专利公布，引领移动影像新变革

Caliper 负载(Workload)详细解析

【NLP中向量化方式】序号化，亚编码，词袋法等

MySQL数据库基础(二)———数据表管理

安卓基础（生成APK）

React 第五十六节 Router 中useSubmit的使用详解及注意事项

next，react封装axios，http请求

✅ 常用 Java HTTP 客户端汇总及使用示例

【零基础快速学Java】韩顺平零基础30天学会Java[学习笔记]

HTTP 请求协议简单介绍