当前位置: 首页 > ds >正文

UI-TARS: 基于视觉语言模型的多模式代理

GitHub:https://github.com/bytedance/UI-TARS

更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。

主要功能

  • 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
  • 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
  • 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
  • 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
  • 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。

性能

Online Benchmark Evaluation

Benchmark typeBenchmarkUI-TARS-1.5OpenAI CUAClaude 3.7Previous SOTA
Computer UseOSworld (100 steps)42.536.42838.1 (200 step)
Windows Agent Arena (50 steps)42.1--29.8
Browser UseWebVoyager84.88784.187
Online-Mind2web75.87162.971
Phone UseAndroid World64.2--59.5

Grounding Capability Evaluation

BenchmarkUI-TARS-1.5OpenAI CUAClaude 3.7Previous SOTA
ScreenSpot-V294.287.987.691.6
ScreenSpotPro61.623.427.743.6

Poki Game

Model2048cubinkoenergyfree-the-keyGem-11hex-frvrInfinity-LoopMaze:Path-of-Lightshapessnake-solverwood-blocks-3dyarn-untanglelaser-maze-puzzletiles-master
OpenAI CUA31.040.0032.800.0046.2792.2523.0835.0052.1842.862.0244.5680.0078.27
Claude 3.743.050.0041.600.000.0030.762.3182.006.2642.860.0013.7728.0052.18
UI-TARS-1.5100.000.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00100.00

Minecraft

Task TypeTask NameVPTDreamerV3Previous SOTAUI-TARS-1.5 w/o ThoughtUI-TARS-1.5 w/ Thought
Mine Blocks(oak_log)0.81.01.01.01.0
(obsidian)0.00.00.00.20.3
(white_bed)0.00.00.10.40.6
200 Tasks Avg.0.060.030.320.350.42
Kill Mobs(mooshroom)0.00.00.10.30.4
(zombie)0.40.10.60.70.9
(chicken)0.10.00.40.50.6
100 Tasks Avg.0.040.030.180.250.31

模型对比

Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.

Benchmark TypeBenchmarkUI-TARS-72B-DPOUI-TARS-1.5-7BUI-TARS-1.5
Computer UseOSWorld24.627.542.5
GUI GroundingScreenSpotPro38.149.661.6

🚀 安装和使用

为了帮助您快速开始使用我们的模型,我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理,以使模型在您的环境中执行作。

✅ 步骤1:部署和推理

👉 部署和推理。 这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。

✅ 第 2 步:后处理

👉 预测后处理。 这包括将模型预测解析为可执行的 pyautogui 代码。 为了帮助您更好地了解坐标处理,我们还提供了坐标处理可视化指南。

提示使用指南

为了适应不同的设备环境和任务复杂性,codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板:

🖥️COMPUTER_USE​

建议用于:桌面环境(如 Windows、Linux 或 macOS)上的 GUI 任务。

特征:

  • 支持常见的桌面作:鼠标单击(单击、双击、右键单击)、拖动作、键盘快捷键、文本输入、滚动等。
  • 非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。
📱MOBILE_USE​

建议用于:移动设备或 Android 仿真器上的 GUI 任务。

特征:

  • 包括特定于移动设备的作:、、、 .long_pressopen_apppress_homepress_back​
  • 适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。
📌GROUNDING​

推荐用于:仅专注于作输出的轻量级任务,或用于模型训练和评估。

特征:

  • 仅输出 ,无需任何推理 ()。ActionThought​
  • 用于评估接地能力。

实战演习

步骤 1:初始化:UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。

步骤 2:观察和思考过程

  • 观察:UI-TARS 识别桌面上的 Word 图标。
  • 思考:“Word 图标存在;我需要双击它才能打开 Word 程序。”
  • 操作:在 Word 图标上执行左键双击操作。

步骤 3:等待程序启动

  • 观察:UI-TARS 检测到 Word 程序正在加载。
  • 想法:“我应该等到 Word 完全启动以避免交互错误。”
  • 操作:执行等待操作以确保环境已准备好进行下一步。

步骤 4:输入文本并保存

  • 观察:UI-TARS 观察到 Word 文档界面已准备好进行交互。
  • 想法:“现在我可以添加文本‘hello’并使用 Ctrl+S 保存文档。”
  • 操作:执行输入(type("hello"))并保存文件(Ctrl+S)。
http://www.xdnf.cn/news/5762.html

相关文章:

  • FLASH闪存(擦除、编译)
  • Golang 空结构体特性与用法
  • 位运算的巧思:以一道简单题看高效算法的设计精髓
  • 可视化图解算法37:序列化二叉树-II
  • MCP与GitHub的集成:开发者的“自动化流水线”革命
  • ThreadLocal 详解
  • 2025年阿里云ACP大数据分析师认证模拟试题(附答案解析)
  • JVM对象分配与程序崩溃排查
  • Git的基本操作
  • Jupyter-AI Pandas-AI本地使用功能优化
  • 识别人脸人名,只是窗口的中文乱码待解决
  • 数据库实验报告 SQL SERVER 2008的基本操作 1
  • 调出事件查看器界面的4种方法
  • 从规划到完善,原型标注图全流程设计
  • 国产化芯片ZCC3790--同步升降压控制器的全新选择, 替代LT3790
  • 接口和抽象类的区别
  • uniapp-商城-54-后台 新增商品1
  • A Survey of Learning from Rewards:从训练到应用的全面剖析
  • 计算机网络|| 路由器和交换机的配置
  • 运用数组和矩阵对数据进行存取和运算——NumPy模块 之四
  • Excel表的导入与导出
  • RAGFlow 初步尝试 (01)
  • 基于HTTP头部字段的SQL注入:SQLi-labs第17-20关
  • OpenCV4.8 开发实战系列专栏之 49 二值图像分析 -轮廓外接矩形
  • 我用Deepseek + 亮数据爬虫神器 1小时做出輿情分析器
  • 一文了解JavaScript对象
  • Kotlin与Ktor构建Android后端API
  • RWA开发全解析:技术架构、合规路径与未来趋势
  • Matlab 汽车制动纵向动力学模型和PID控制
  • Webpack中Compiler详解以及自定义loader和plugin详解