Agent-S: 操作计算机的智能代理框架
GitHub:https://github.com/simular-ai/Agent-S
更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI
让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。通过集成大模型(LLM)和视觉多模态模型,能够理解屏幕截图、界面结构等输入,并生成操作指令,实现自动点击、输入、窗口切换、搜索等操作。
主要功能
- 图形界面操作:模拟鼠标和键盘,与电脑软件互动。
- 任务分解与规划:将复杂任务拆成小步骤,自动执行。
- 经验学习:从历史任务中学习,提高效率。
- 跨平台支持:可在 macOS、Windows 和 Linux 上运行。
- 多模态输入:结合屏幕图像和界面元素,精准操作。
- 开源定制:提供源代码和文档,开发者可自由调整。
- 知识库更新:运行时持续更新经验数据,提升智能性。
安装和使用
-
准备环境
- 安装 Python 3.9 到 3.12。
- 安装 Git,用于下载代码。
- 可选:准备虚拟机(如 VMware),用于测试或隔离环境。
-
下载代码
-
打开终端,运行:
git clone https://github.com/simular-ai/Agent-S.git
-
进入项目目录:
cd Agent-S
-
-
安装依赖
-
创建虚拟环境(推荐):
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows
-
安装核心库:
pip install gui-agents
-
设置环境变量(如 API 密钥):
export OPENAI_API_KEY=<你的密钥> export ANTHROPIC_API_KEY=<你的密钥> export HF_TOKEN=<你的Hugging Face密钥>
-
-
启动 Agent S
-
运行 Agent S1 或 S2:
agent_s1 # 运行 Agent S1 agent_s2 # 运行 Agent S2
-
启动后,输入任务即可开始使用。
-
实战演习
场景1: 图形界面操作
-
功能说明:通过屏幕截图和界面识别,模拟人类操作。
-
操作步骤:
- 运行 agent_s2。
- 输入任务:“打开记事本并输入‘你好’。”
- Agent S2 找到记事本图标,点击打开,然后输入文字。
- 按 Ctrl+C 可随时停止。
场景2: 任务分解与规划
-
功能说明:将复杂任务拆解为小步骤,逐步完成。
-
操作步骤:
- 输入:“发送一封邮件给朋友。”
- Agent S2 自动执行:打开邮件软件、新建邮件、填写内容、点击发送。
- 用户可在终端查看每步日志。
场景3: 经验学习
-
功能说明:记录任务过程,优化后续操作。
-
操作步骤:
- 完成任务后,经验保存在 gui_agents/kb 文件夹。
- 再次运行相似任务,效率会提升。
- 开发者可检查知识库文件,了解学习内容。
场景4: 跨平台支持
-
功能说明:支持三大主流操作系统。
-
操作步骤:
- Windows 需要安装 pywin32 和 pywinauto。
- macOS 需要 pyobjc,用 pip install pyobjc 安装。
- Linux 检查 pyautogui 兼容性,可能需调整权限。
场景5: 多模态输入
-
功能说明:结合图像和界面数据,提高操作准确性。
-
操作步骤:
- 输入:“在浏览器中搜索‘天气’。”
- Agent S2 分析屏幕,找到浏览器窗口,输入搜索词。
- 结果自动显示。
场景6: 知识库下载
-
功能说明:Agent S2 使用预训练知识库,支持离线运行。
-
操作步骤:
-
首次启动时,自动从 GitHub Releases 下载知识库。
-
手动下载示例:
**复制**复制**复制**复制**复制**复制**复制**复制download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
-
知识库路径在 kb_data 文件夹。
-
场景7: 集成 Perplexica 搜索
-
功能说明:增强 Agent S 的网页知识检索能力。
-
操作步骤:
-
安装 Docker Desktop 并启动。
-
下载 Perplexica:
cd Perplexica git submodule update --init
-
重命名 sample.config.toml 为 config.toml,填写 API 密钥。
-
启动服务:
docker compose up -d
-
设置 Perplexica URL:
export PERPLEXICA_URL=http://localhost:端口/api/search
-
场景8: 自定义模型
-
功能说明:支持多种大模型和自定义端点。
-
操作步骤:
-
使用 Claude 模型:
agent_s2 --model claude-3-7-sonnet-20250219
-
使用 Hugging Face 端点:
agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
-