UI-Vision
收藏arXiv2025-03-20 更新2025-03-22 收录
下载链接:
https://uivision.github.io
下载链接
链接失效反馈官方服务:
资源简介:
UI-Vision是一个覆盖83个软件应用的大型桌面GUI基准数据集,旨在 offline 设置中评估计算机使用代理在真实世界桌面环境中的视觉感知和交互能力。数据集提供了密集的注释,包括边界框、UI标签和动作轨迹,涵盖了Element Grounding、Layout Grounding和Action Prediction三个核心任务,以全面评估代理在桌面环境中的表现。
UI-Vision is a large-scale desktop GUI benchmark dataset covering 83 software applications. It aims to evaluate the visual perception and interaction capabilities of computer-using agents in real-world desktop environments under the offline setting. The dataset provides dense annotations including bounding boxes, UI labels and action trajectories, covering three core tasks: Element Grounding, Layout Grounding and Action Prediction, to enable a comprehensive evaluation of agents' performance in desktop environments.
提供机构:
Mila - Quebec AI Institute, Universitée de Montréal, ServiceNow, University of Waterloo, National University of Singapore, École de Technologie Supérieure, CIFAR AI Chair, Polytechnique Montréal
创建时间:
2025-03-20
搜集汇总
数据集介绍

构建方式
UI-Vision数据集的构建过程始于从83个开源桌面平台中收集用户交互数据,涵盖生产力、开发、创意、教育、浏览器和社交媒体/娱乐六大领域。专家标注者通过执行计算机使用任务,记录屏幕操作并生成动作轨迹,随后对关键帧进行密集标注,包括UI元素的边界框和功能描述。为确保数据质量,标注过程经过多阶段的质量检查,最终形成包含450个高质量演示的数据集。
使用方法
UI-Vision数据集的使用方法包括三个核心任务:元素定位任务要求模型根据文本查询预测UI元素的边界框;布局定位任务评估模型将UI元素聚类为功能组的能力;动作预测任务则测试模型根据任务指令和当前UI状态预测下一步动作的能力。通过这些任务,研究人员可以系统地评估模型在桌面环境中的视觉感知和交互能力。
背景与挑战
背景概述
UI-Vision是由Mila - Quebec AI Institute、ServiceNow、University of Waterloo等机构的研究人员于2025年推出的首个专注于桌面环境的图形用户界面(GUI)基准测试数据集。该数据集旨在评估计算机使用代理在真实桌面环境中的表现,涵盖了83个软件应用程序,提供了密集的高质量人类演示注释,包括边界框、UI标签和操作轨迹。UI-Vision的推出填补了现有基准测试在桌面环境中的空白,特别是在离线、细粒度评估方面的不足。该数据集通过三个核心任务——元素定位、布局定位和动作预测——为多模态GUI代理的开发和评估提供了全面的框架。UI-Vision的开源发布推动了桌面任务自动化代理的研究进展,具有重要的学术和工业应用价值。
当前挑战
UI-Vision在解决桌面GUI自动化问题时面临多重挑战。首先,元素定位任务要求模型在复杂的桌面环境中精确识别和定位UI元素,尤其是在功能丰富、视觉复杂的界面中,模型的表现显著下降。其次,布局定位任务要求模型理解UI元素的空间关系并将其分组为功能区域,现有模型在这一任务上的表现仍然有限,尤其是在处理高密度UI布局时。最后,动作预测任务要求模型根据任务指令和UI状态预测下一步操作,模型在处理拖拽等复杂动作时表现不佳。此外,数据集的构建过程中也面临挑战,包括数据收集的复杂性、软件许可问题以及确保注释的准确性和一致性。这些挑战凸显了开发完全自主的桌面GUI代理的难度。
常用场景
经典使用场景
UI-Vision数据集主要用于评估图形用户界面(GUI)自动化代理在桌面环境中的表现。通过提供83个软件应用程序的密集注释,包括边界框、UI标签和动作轨迹,UI-Vision支持细粒度的任务评估,如元素定位、布局定位和动作预测。这些任务旨在模拟真实世界中的桌面操作,帮助研究人员开发和测试能够自动化复杂GUI交互的智能代理。
解决学术问题
UI-Vision解决了现有研究中桌面环境数据不足的问题,尤其是在视觉感知和交互方面的挑战。通过提供高质量的注释和多样化的任务,该数据集使得研究人员能够更全面地评估模型在桌面环境中的表现。此外,UI-Vision揭示了当前最先进模型在理解专业软件、空间推理和复杂动作(如拖放)方面的局限性,为未来的研究提供了明确的方向。
实际应用
UI-Vision的实际应用场景包括自动化文档编辑、文件管理和软件配置等日常任务。通过训练和评估基于该数据集的智能代理,企业可以提高员工的工作效率,减少重复性任务的负担。此外,UI-Vision还可用于开发辅助工具,帮助用户更高效地完成复杂的GUI操作,特别是在专业软件和开发环境中。
数据集最近研究
最新研究方向
UI-Vision数据集的最新研究方向主要集中在图形用户界面(GUI)的视觉感知与交互任务自动化上。随着多模态大语言模型(LLMs)的快速发展,GUI代理的能力得到了显著提升,尤其是在处理复杂任务如文档编辑和文件管理方面。然而,现有的研究多集中于在线环境,而桌面环境作为许多专业和日常任务的核心,仍存在数据收集和许可问题。UI-Vision作为首个全面的、许可宽松的桌面环境基准,提供了83个软件应用的高质量注释,包括边界框、UI标签和动作轨迹(点击、拖拽和键盘输入)。该数据集通过三个细粒度任务——元素定位、布局定位和动作预测——严格评估代理在桌面环境中的表现。研究表明,现有模型在理解专业软件、空间推理和复杂动作(如拖拽)方面存在显著局限性,凸显了开发完全自主的计算机使用代理的挑战。通过开源UI-Vision,研究团队旨在推动更强大的桌面任务代理的开发,并为未来的GUI自动化研究提供坚实的基础。
相关研究论文
- 1UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and InteractionMila - Quebec AI Institute, Universitée de Montréal, ServiceNow, University of Waterloo, National University of Singapore, École de Technologie Supérieure, CIFAR AI Chair, Polytechnique Montréal · 2025年
以上内容由遇见数据集搜集并总结生成



