UI-Vision

Name: UI-Vision
Creator: Mila - Quebec AI Institute, Universitée de Montréal, ServiceNow, University of Waterloo, National University of Singapore, École de Technologie Supérieure, CIFAR AI Chair, Polytechnique Montréal
Published: 2025-03-20 03:26:17
License: 暂无描述

arXiv2025-03-20 更新2025-03-22 收录

下载链接：

https://uivision.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

UI-Vision是一个覆盖83个软件应用的大型桌面GUI基准数据集，旨在 offline 设置中评估计算机使用代理在真实世界桌面环境中的视觉感知和交互能力。数据集提供了密集的注释，包括边界框、UI标签和动作轨迹，涵盖了Element Grounding、Layout Grounding和Action Prediction三个核心任务，以全面评估代理在桌面环境中的表现。

UI-Vision is a large-scale desktop GUI benchmark dataset covering 83 software applications. It aims to evaluate the visual perception and interaction capabilities of computer-using agents in real-world desktop environments under the offline setting. The dataset provides dense annotations including bounding boxes, UI labels and action trajectories, covering three core tasks: Element Grounding, Layout Grounding and Action Prediction, to enable a comprehensive evaluation of agents' performance in desktop environments.

提供机构：

Mila - Quebec AI Institute, Universitée de Montréal, ServiceNow, University of Waterloo, National University of Singapore, École de Technologie Supérieure, CIFAR AI Chair, Polytechnique Montréal

创建时间：

2025-03-20

搜集汇总

数据集介绍

构建方式

UI-Vision数据集的构建过程始于从83个开源桌面平台中收集用户交互数据，涵盖生产力、开发、创意、教育、浏览器和社交媒体/娱乐六大领域。专家标注者通过执行计算机使用任务，记录屏幕操作并生成动作轨迹，随后对关键帧进行密集标注，包括UI元素的边界框和功能描述。为确保数据质量，标注过程经过多阶段的质量检查，最终形成包含450个高质量演示的数据集。

使用方法

UI-Vision数据集的使用方法包括三个核心任务：元素定位任务要求模型根据文本查询预测UI元素的边界框；布局定位任务评估模型将UI元素聚类为功能组的能力；动作预测任务则测试模型根据任务指令和当前UI状态预测下一步动作的能力。通过这些任务，研究人员可以系统地评估模型在桌面环境中的视觉感知和交互能力。

背景与挑战

背景概述

UI-Vision是由Mila - Quebec AI Institute、ServiceNow、University of Waterloo等机构的研究人员于2025年推出的首个专注于桌面环境的图形用户界面（GUI）基准测试数据集。该数据集旨在评估计算机使用代理在真实桌面环境中的表现，涵盖了83个软件应用程序，提供了密集的高质量人类演示注释，包括边界框、UI标签和操作轨迹。UI-Vision的推出填补了现有基准测试在桌面环境中的空白，特别是在离线、细粒度评估方面的不足。该数据集通过三个核心任务——元素定位、布局定位和动作预测——为多模态GUI代理的开发和评估提供了全面的框架。UI-Vision的开源发布推动了桌面任务自动化代理的研究进展，具有重要的学术和工业应用价值。

当前挑战

UI-Vision在解决桌面GUI自动化问题时面临多重挑战。首先，元素定位任务要求模型在复杂的桌面环境中精确识别和定位UI元素，尤其是在功能丰富、视觉复杂的界面中，模型的表现显著下降。其次，布局定位任务要求模型理解UI元素的空间关系并将其分组为功能区域，现有模型在这一任务上的表现仍然有限，尤其是在处理高密度UI布局时。最后，动作预测任务要求模型根据任务指令和UI状态预测下一步操作，模型在处理拖拽等复杂动作时表现不佳。此外，数据集的构建过程中也面临挑战，包括数据收集的复杂性、软件许可问题以及确保注释的准确性和一致性。这些挑战凸显了开发完全自主的桌面GUI代理的难度。

常用场景

经典使用场景

UI-Vision数据集主要用于评估图形用户界面（GUI）自动化代理在桌面环境中的表现。通过提供83个软件应用程序的密集注释，包括边界框、UI标签和动作轨迹，UI-Vision支持细粒度的任务评估，如元素定位、布局定位和动作预测。这些任务旨在模拟真实世界中的桌面操作，帮助研究人员开发和测试能够自动化复杂GUI交互的智能代理。

解决学术问题

UI-Vision解决了现有研究中桌面环境数据不足的问题，尤其是在视觉感知和交互方面的挑战。通过提供高质量的注释和多样化的任务，该数据集使得研究人员能够更全面地评估模型在桌面环境中的表现。此外，UI-Vision揭示了当前最先进模型在理解专业软件、空间推理和复杂动作（如拖放）方面的局限性，为未来的研究提供了明确的方向。

实际应用

UI-Vision的实际应用场景包括自动化文档编辑、文件管理和软件配置等日常任务。通过训练和评估基于该数据集的智能代理，企业可以提高员工的工作效率，减少重复性任务的负担。此外，UI-Vision还可用于开发辅助工具，帮助用户更高效地完成复杂的GUI操作，特别是在专业软件和开发环境中。

数据集最近研究