当前位置: 首页 > news >正文

Agent-S: 操作计算机的智能代理框架

GitHub:https://github.com/simular-ai/Agent-S

更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。通过集成大模型(LLM)和视觉多模态模型,能够理解屏幕截图、界面结构等输入,并生成操作指令,实现自动点击、输入、窗口切换、搜索等操作。

主要功能

  • 图形界面操作:模拟鼠标和键盘,与电脑软件互动。
  • 任务分解与规划:将复杂任务拆成小步骤,自动执行。
  • 经验学习:从历史任务中学习,提高效率。
  • 跨平台支持:可在 macOS、Windows 和 Linux 上运行。
  • 多模态输入:结合屏幕图像和界面元素,精准操作。
  • 开源定制:提供源代码和文档,开发者可自由调整。
  • 知识库更新:运行时持续更新经验数据,提升智能性。

安装和使用

  1. 准备环境

    • 安装 Python 3.9 到 3.12。
    • 安装 Git,用于下载代码。
    • 可选:准备虚拟机(如 VMware),用于测试或隔离环境。
  2. 下载代码

    • 打开终端,运行:

      git clone https://github.com/simular-ai/Agent-S.git
      
    • 进入项目目录:

      cd Agent-S
      
  3. 安装依赖

    • 创建虚拟环境(推荐):

      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • 安装核心库:

      pip install gui-agents
      
    • 设置环境变量(如 API 密钥):

      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. 启动 Agent S

    • 运行 Agent S1 或 S2:

      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • 启动后,输入任务即可开始使用。

实战演习

场景1: 图形界面操作
  • 功能说明:通过屏幕截图和界面识别,模拟人类操作。

  • 操作步骤:

    1. 运行 agent_s2​。
    2. 输入任务:“打开记事本并输入‘你好’。”
    3. Agent S2 找到记事本图标,点击打开,然后输入文字。
    4. 按 Ctrl+C 可随时停止。
场景2: 任务分解与规划
  • 功能说明:将复杂任务拆解为小步骤,逐步完成。

  • 操作步骤:

    1. 输入:“发送一封邮件给朋友。”
    2. Agent S2 自动执行:打开邮件软件、新建邮件、填写内容、点击发送。
    3. 用户可在终端查看每步日志。
场景3: 经验学习
  • 功能说明:记录任务过程,优化后续操作。

  • 操作步骤:

    1. 完成任务后,经验保存在 gui_agents/kb​ 文件夹。
    2. 再次运行相似任务,效率会提升。
    3. 开发者可检查知识库文件,了解学习内容。
场景4: 跨平台支持
  • 功能说明:支持三大主流操作系统。

  • 操作步骤:

    1. Windows 需要安装 pywin32​ 和 pywinauto​。
    2. macOS 需要 pyobjc​,用 pip install pyobjc​ 安装。
    3. Linux 检查 pyautogui​ 兼容性,可能需调整权限。
场景5: 多模态输入
  • 功能说明:结合图像和界面数据,提高操作准确性。

  • 操作步骤:

    1. 输入:“在浏览器中搜索‘天气’。”
    2. Agent S2 分析屏幕,找到浏览器窗口,输入搜索词。
    3. 结果自动显示。
场景6: 知识库下载
  • 功能说明:Agent S2 使用预训练知识库,支持离线运行。

  • 操作步骤:

    1. 首次启动时,自动从 GitHub Releases 下载知识库。

    2. 手动下载示例:
      **复制**复制**复制**复制**复制**复制**复制**复制

      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. 知识库路径在 kb_data​ 文件夹。

场景7: 集成 Perplexica 搜索
  • 功能说明:增强 Agent S 的网页知识检索能力。

  • 操作步骤:

    1. 安装 Docker Desktop 并启动。

    2. 下载 Perplexica:

      cd Perplexica
      git submodule update --init
      
    3. 重命名 sample.config.toml​ 为 config.toml​,填写 API 密钥。

    4. 启动服务:

      docker compose up -d
      
    5. 设置 Perplexica URL:

      export PERPLEXICA_URL=http://localhost:端口/api/search
      
场景8: 自定义模型
  • 功能说明:支持多种大模型和自定义端点。

  • 操作步骤:

    1. 使用 Claude 模型:

      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. 使用 Hugging Face 端点:

      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      
http://www.xdnf.cn/news/367777.html

相关文章:

  • LVGL源码学习之渲染、更新过程(3)---绘制和刷写
  • 华为欧拉(EulerOS)系统全栈软件部署指南:从 Redis 到 MySQL 实战详解
  • JAVA继承中变量和方法的存储和方法中访问变量的顺序
  • 视频流:大华及海康视频流本地测试预览
  • LeetCode 解题思路 47(最长回文子串、最长公共子序列)
  • SQL注入的绕过方式
  • 【人工智能学习之动作识别TSM训练与部署】
  • 通信阵列波导性能提升难?OAS 软件助力精准解决
  • 操纵杆支架加工工艺及钻3φ11孔夹具设计
  • TransPose: Keypoint Localization via Transformer(ICCV2021)
  • 【UEFN】用于可靠多模态情感分析的高效不确定性估计融合网络
  • ASCII码的快速记忆方法
  • 优雅草星云智控系统产品发布会前瞻:SNMP协议全设备开启指南-优雅草卓伊凡
  • 【传感器】代码——DHT11温湿度传感器
  • 企业如何选择靠谱的软件测试外包公司?
  • CSS实现图片垂直居中方法
  • rabbitmq学习笔记快速使用
  • ROS导航局部路径规划算法
  • 第十五节:图像形态学操作-形态学梯度
  • AIGC理论基础:大模型通识
  • Oracle OCP认证考试考点详解083系列14
  • Vue项目中实现自定义连线图
  • 硬件实操技巧记录
  • Edu教育邮箱2025年5月亲测有效
  • 解锁蜘蛛池 SEO 优化:网站流量增长的高效引擎
  • 初等数论--欧拉函数及其性质
  • TLS 加密通信介绍
  • 机器学习 期末考试题
  • 鞋样设计软件
  • 【库(Library)、包(Package)和模块(Module)解析】