当前位置：首页 > ds >正文

UI-TARS: 基于视觉语言模型的多模式代理

ds 2025/7/4 10:07:06

GitHub：https://github.com/bytedance/UI-TARS

更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

基于视觉语言模型（Vision-Language Model）的 GUI 代理应用，允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术，能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行，适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示，用户可以直观地看到指令的执行情况，确保操作的精准性和高效性。

主要功能

自然语言控制：通过自然语言指令控制电脑操作，简化用户交互。
视觉识别支持：支持截图和视觉识别功能，能够识别屏幕内容并执行相应操作。
精准控制：提供精确的鼠标和键盘控制，确保操作的准确性。
跨平台支持：支持 Windows 和 MacOS 系统，满足不同用户的需求。
实时反馈：提供实时反馈和状态显示，帮助用户了解指令执行情况。

性能

Online Benchmark Evaluation

Benchmark type	Benchmark	UI-TARS-1.5	OpenAI CUA	Claude 3.7	Previous SOTA
Computer Use	OSworld (100 steps)	42.5	36.4	28	38.1 (200 step)
	Windows Agent Arena (50 steps)	42.1	-	-	29.8
Browser Use	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
Phone Use	Android World	64.2	-	-	59.5

Grounding Capability Evaluation

Benchmark	UI-TARS-1.5	OpenAI CUA	Claude 3.7	Previous SOTA
ScreenSpot-V2	94.2	87.9	87.6	91.6
ScreenSpotPro	61.6	23.4	27.7	43.6

Poki Game

Model	2048	cubinko	energy	free-the-key	Gem-11	hex-frvr	Infinity-Loop	Maze:Path-of-Light	shapes	snake-solver	wood-blocks-3d	yarn-untangle	laser-maze-puzzle	tiles-master
OpenAI CUA	31.04	0.00	32.80	0.00	46.27	92.25	23.08	35.00	52.18	42.86	2.02	44.56	80.00	78.27
Claude 3.7	43.05	0.00	41.60	0.00	0.00	30.76	2.31	82.00	6.26	42.86	0.00	13.77	28.00	52.18
UI-TARS-1.5	100.00	0.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00

Minecraft

Task Type	Task Name	VPT	DreamerV3	Previous SOTA	UI-TARS-1.5 w/o Thought	UI-TARS-1.5 w/ Thought
Mine Blocks	(oak_log)	0.8	1.0	1.0	1.0	1.0
	(obsidian)	0.0	0.0	0.0	0.2	0.3
	(white_bed)	0.0	0.0	0.1	0.4	0.6
	200 Tasks Avg.	0.06	0.03	0.32	0.35	0.42
Kill Mobs	(mooshroom)	0.0	0.0	0.1	0.3	0.4
	(zombie)	0.4	0.1	0.6	0.7	0.9
	(chicken)	0.1	0.0	0.4	0.5	0.6
	100 Tasks Avg.	0.04	0.03	0.18	0.25	0.31

模型对比

Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.

Benchmark Type	Benchmark	UI-TARS-72B-DPO	UI-TARS-1.5-7B	UI-TARS-1.5
Computer Use	OSWorld	24.6	27.5	42.5
GUI Grounding	ScreenSpotPro	38.1	49.6	61.6

🚀 安装和使用

为了帮助您快速开始使用我们的模型，我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理，以使模型在您的环境中执行作。

✅ 步骤1：部署和推理

👉 部署和推理。这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。

✅ 第 2 步：后处理

👉 预测后处理。这包括将模型预测解析为可执行的 pyautogui 代码。为了帮助您更好地了解坐标处理，我们还提供了坐标处理可视化指南。

提示使用指南

为了适应不同的设备环境和任务复杂性，codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板：

🖥️COMPUTER_USE

建议用于：桌面环境（如 Windows、Linux 或 macOS）上的 GUI 任务。

特征：

支持常见的桌面作：鼠标单击（单击、双击、右键单击）、拖动作、键盘快捷键、文本输入、滚动等。
非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。

📱MOBILE_USE

建议用于：移动设备或 Android 仿真器上的 GUI 任务。

特征：

包括特定于移动设备的作：、、、 .long_pressopen_apppress_homepress_back
适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。

📌GROUNDING

推荐用于：仅专注于作输出的轻量级任务，或用于模型训练和评估。

特征：

仅输出，无需任何推理（）。ActionThought
用于评估接地能力。

实战演习

步骤 1：初始化：UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。

步骤 2：观察和思考过程

观察：UI-TARS 识别桌面上的 Word 图标。
思考：“Word 图标存在；我需要双击它才能打开 Word 程序。”
操作：在 Word 图标上执行左键双击操作。

步骤 3：等待程序启动

观察：UI-TARS 检测到 Word 程序正在加载。
想法：“我应该等到 Word 完全启动以避免交互错误。”
操作：执行等待操作以确保环境已准备好进行下一步。

步骤 4：输入文本并保存

观察：UI-TARS 观察到 Word 文档界面已准备好进行交互。
想法：“现在我可以添加文本‘hello’并使用 Ctrl+S 保存文档。”
操作：执行输入（type("hello")）并保存文件（Ctrl+S）。

http://www.xdnf.cn/news/5762.html

相关文章：

FLASH闪存（擦除、编译）

Golang 空结构体特性与用法

位运算的巧思：以一道简单题看高效算法的设计精髓

可视化图解算法37：序列化二叉树-II

MCP与GitHub的集成：开发者的“自动化流水线”革命

ThreadLocal 详解

2025年阿里云ACP大数据分析师认证模拟试题（附答案解析）

JVM对象分配与程序崩溃排查

Git的基本操作

Jupyter-AI Pandas-AI本地使用功能优化

识别人脸人名，只是窗口的中文乱码待解决

数据库实验报告 SQL SERVER 2008的基本操作 1

调出事件查看器界面的4种方法

从规划到完善，原型标注图全流程设计

国产化芯片ZCC3790--同步升降压控制器的全新选择, 替代LT3790

接口和抽象类的区别

uniapp-商城-54-后台新增商品1

A Survey of Learning from Rewards：从训练到应用的全面剖析

计算机网络|| 路由器和交换机的配置

运用数组和矩阵对数据进行存取和运算——NumPy模块之四

Excel表的导入与导出

RAGFlow 初步尝试 (01)

基于HTTP头部字段的SQL注入：SQLi-labs第17-20关

OpenCV4.8 开发实战系列专栏之 49 二值图像分析 -轮廓外接矩形

我用Deepseek + 亮数据爬虫神器 1小时做出輿情分析器

一文了解JavaScript对象

Kotlin与Ktor构建Android后端API

RWA开发全解析：技术架构、合规路径与未来趋势

Matlab 汽车制动纵向动力学模型和PID控制

Webpack中Compiler详解以及自定义loader和plugin详解