UI-Vision

github2025-05-21 更新2025-05-22 收录

下载链接：

https://github.com/uivision/UI-Vision

下载链接

链接失效反馈

官方服务：

资源简介：

UI-Vision是一个全面的、许可宽松的基准数据集，用于在真实桌面环境中对83个软件应用程序进行离线、细粒度评估，涵盖6个类别。该基准包括三个任务：元素定位、布局定位和动作预测，旨在推动更强大的真实桌面任务代理的开发。

UI-Vision is a comprehensive, permissively licensed benchmark dataset designed for offline, fine-grained evaluation of 83 software applications in real desktop environments, spanning 6 categories. The benchmark encompasses three tasks: element localization, layout localization, and action prediction, aiming to facilitate the development of more robust real desktop task agents.

创建时间：

2025-04-21

原始信息汇总

UI-Vision 数据集概述

基本信息

名称: UI-Vision
类型: 桌面图形用户界面（GUI）基准测试
领域: 计算机视觉、人机交互
许可证: 宽松许可证（未明确指定具体类型）

核心功能

评估任务:
- 元素定位（Element Grounding）
- 布局定位（Layout Grounding）
- 动作预测（Action Prediction）

数据规模

覆盖范围: 83个软件应用程序
分类: 6个类别

技术特点

评估方式: 离线细粒度评估
目标: 提升现实桌面环境中计算机使用代理的能力

资源链接

论文: arXiv:2503.15661
数据集: HuggingFace数据集
项目网站: uivision.github.io

代码结构

eval/ ├── grounding/ # 元素和布局定位评估脚本 └── action_prediction/ # 动作预测评估脚本

重要日期

2025-05-15: 发布定位数据集和评估代码
2025-05-01: 被ICML 2025接收
2025-03-19: 项目网站上线和论文预印本发布

引用格式

bibtex @misc{nayak2025uivisiondesktopcentricguibenchmark, title={UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction}, author={Shravan Nayak and Xiangru Jian and Kevin Qinghong Lin and Juan A. Rodriguez and Montek Kalsi and Rabiul Awal and Nicolas Chapados and M. Tamer Özsu and Aishwarya Agrawal and David Vazquez and Christopher Pal and Perouz Taslakian and Spandana Gella and Sai Rajeswar}, year={2025}, eprint={2503.15661}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.15661}, }

搜集汇总

数据集介绍

构建方式

在桌面图形用户界面研究领域，UI-Vision通过系统化采集83款跨类别软件应用的操作界面，构建了一个多任务评估基准。该数据集采用分层抽样策略覆盖6大软件类别，通过专业标注团队对界面元素进行像素级标注，并记录用户操作序列，形成元素定位、布局理解和动作预测三大任务模块。数据采集过程严格遵循许可协议要求，确保所有样本均可合法用于学术研究。

特点

作为桌面环境GUI研究的里程碑式资源，UI-Vision最显著的特点是其实用性与多样性并重。数据集囊括了从办公套件到创意工具等不同领域的真实软件界面，每个样本均包含精确的视觉元素边界标注和操作上下文信息。特别值得注意的是其首创的三维评估体系，通过元素-布局-动作的递进式任务设计，全面检验智能代理在复杂桌面环境中的感知与交互能力。数据格式采用标准化结构存储，便于不同任务间的交叉验证研究。

使用方法

研究者可通过Hugging Face平台获取UI-Vision的基准数据集，配套的评估代码库提供完整的任务验证流程。对于元素定位任务，需加载预标注的界面截图与坐标数据；布局理解任务则需要解析XML格式的界面结构树；动作预测模块要求输入操作序列的时间戳和上下文特征。评估脚本采用模块化设计，支持自定义指标扩展，所有任务均提供标准化得分计算接口，确保不同研究间的可比性。

背景与挑战

背景概述

UI-Vision数据集由ServiceNow等机构的研究团队于2025年推出，旨在为桌面环境中的计算机使用代理提供细粒度的离线评估基准。该数据集聚焦于图形用户界面（GUI）的视觉感知与交互问题，覆盖83款软件应用的6大类别，包含元素定位、布局理解和动作预测三大核心任务。作为首个以桌面为中心的大规模GUI基准，其多模态特性推动了人机交互与计算机视觉的交叉研究，为构建实用化桌面任务代理奠定了数据基础。

当前挑战

在领域问题层面，UI-Vision需解决跨应用GUI元素异质性带来的泛化性挑战，以及长序列交互动作的时序建模难题。数据集构建过程中，研究人员面临真实桌面环境数据采集的复杂性，包括不同操作系统和软件版本的兼容性问题，以及用户操作轨迹标注的高成本。此外，保持83款应用数据分布的平衡性，同时确保许可证合规性，也是构建过程中的关键挑战。

常用场景

经典使用场景

在计算机视觉与人机交互领域，UI-Vision数据集为研究人员提供了一个标准化的测试平台，用于评估桌面环境中GUI元素的视觉感知和交互能力。该数据集涵盖了83种不同软件应用的界面元素，支持元素定位、布局理解和动作预测三大任务，为构建更智能的桌面代理系统奠定了数据基础。

解决学术问题

UI-Vision数据集有效解决了桌面环境智能代理开发中的关键挑战，包括跨应用GUI元素的统一表征、复杂布局的语义理解以及用户意图的准确预测。通过提供细粒度的标注数据和标准化评估协议，该数据集显著推进了视觉-语言模型在真实场景中的应用研究，为多模态学习领域提供了重要的基准参考。

衍生相关工作

基于UI-Vision数据集，学术界已衍生出多项重要研究，包括跨模态GUI理解框架、基于注意力机制的界面元素定位算法，以及结合强化学习的动作预测模型。这些工作显著提升了计算机视觉模型在真实桌面环境中的表现，为后续的智能办公系统研究提供了技术储备。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集