five

UI-Vision|桌面用户界面数据集|计算机视觉数据集

收藏
arXiv2025-03-20 更新2025-03-22 收录
桌面用户界面
计算机视觉
下载链接:
https://uivision.github.io
下载链接
链接失效反馈
资源简介:
UI-Vision是一个覆盖83个软件应用的大型桌面GUI基准数据集,旨在 offline 设置中评估计算机使用代理在真实世界桌面环境中的视觉感知和交互能力。数据集提供了密集的注释,包括边界框、UI标签和动作轨迹,涵盖了Element Grounding、Layout Grounding和Action Prediction三个核心任务,以全面评估代理在桌面环境中的表现。
提供机构:
Mila - Quebec AI Institute, Universitée de Montréal, ServiceNow, University of Waterloo, National University of Singapore, École de Technologie Supérieure, CIFAR AI Chair, Polytechnique Montréal
创建时间:
2025-03-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
UI-Vision数据集的构建过程始于从83个开源桌面平台中收集用户交互数据,涵盖生产力、开发、创意、教育、浏览器和社交媒体/娱乐六大领域。专家标注者通过执行计算机使用任务,记录屏幕操作并生成动作轨迹,随后对关键帧进行密集标注,包括UI元素的边界框和功能描述。为确保数据质量,标注过程经过多阶段的质量检查,最终形成包含450个高质量演示的数据集。
使用方法
UI-Vision数据集的使用方法包括三个核心任务:元素定位任务要求模型根据文本查询预测UI元素的边界框;布局定位任务评估模型将UI元素聚类为功能组的能力;动作预测任务则测试模型根据任务指令和当前UI状态预测下一步动作的能力。通过这些任务,研究人员可以系统地评估模型在桌面环境中的视觉感知和交互能力。
背景与挑战
背景概述
UI-Vision是由Mila - Quebec AI Institute、ServiceNow、University of Waterloo等机构的研究人员于2025年推出的首个专注于桌面环境的图形用户界面(GUI)基准测试数据集。该数据集旨在评估计算机使用代理在真实桌面环境中的表现,涵盖了83个软件应用程序,提供了密集的高质量人类演示注释,包括边界框、UI标签和操作轨迹。UI-Vision的推出填补了现有基准测试在桌面环境中的空白,特别是在离线、细粒度评估方面的不足。该数据集通过三个核心任务——元素定位、布局定位和动作预测——为多模态GUI代理的开发和评估提供了全面的框架。UI-Vision的开源发布推动了桌面任务自动化代理的研究进展,具有重要的学术和工业应用价值。
当前挑战
UI-Vision在解决桌面GUI自动化问题时面临多重挑战。首先,元素定位任务要求模型在复杂的桌面环境中精确识别和定位UI元素,尤其是在功能丰富、视觉复杂的界面中,模型的表现显著下降。其次,布局定位任务要求模型理解UI元素的空间关系并将其分组为功能区域,现有模型在这一任务上的表现仍然有限,尤其是在处理高密度UI布局时。最后,动作预测任务要求模型根据任务指令和UI状态预测下一步操作,模型在处理拖拽等复杂动作时表现不佳。此外,数据集的构建过程中也面临挑战,包括数据收集的复杂性、软件许可问题以及确保注释的准确性和一致性。这些挑战凸显了开发完全自主的桌面GUI代理的难度。
常用场景
经典使用场景
UI-Vision数据集主要用于评估图形用户界面(GUI)自动化代理在桌面环境中的表现。通过提供83个软件应用程序的密集注释,包括边界框、UI标签和动作轨迹,UI-Vision支持细粒度的任务评估,如元素定位、布局定位和动作预测。这些任务旨在模拟真实世界中的桌面操作,帮助研究人员开发和测试能够自动化复杂GUI交互的智能代理。
解决学术问题
UI-Vision解决了现有研究中桌面环境数据不足的问题,尤其是在视觉感知和交互方面的挑战。通过提供高质量的注释和多样化的任务,该数据集使得研究人员能够更全面地评估模型在桌面环境中的表现。此外,UI-Vision揭示了当前最先进模型在理解专业软件、空间推理和复杂动作(如拖放)方面的局限性,为未来的研究提供了明确的方向。
实际应用
UI-Vision的实际应用场景包括自动化文档编辑、文件管理和软件配置等日常任务。通过训练和评估基于该数据集的智能代理,企业可以提高员工的工作效率,减少重复性任务的负担。此外,UI-Vision还可用于开发辅助工具,帮助用户更高效地完成复杂的GUI操作,特别是在专业软件和开发环境中。
数据集最近研究
最新研究方向
UI-Vision数据集的最新研究方向主要集中在图形用户界面(GUI)的视觉感知与交互任务自动化上。随着多模态大语言模型(LLMs)的快速发展,GUI代理的能力得到了显著提升,尤其是在处理复杂任务如文档编辑和文件管理方面。然而,现有的研究多集中于在线环境,而桌面环境作为许多专业和日常任务的核心,仍存在数据收集和许可问题。UI-Vision作为首个全面的、许可宽松的桌面环境基准,提供了83个软件应用的高质量注释,包括边界框、UI标签和动作轨迹(点击、拖拽和键盘输入)。该数据集通过三个细粒度任务——元素定位、布局定位和动作预测——严格评估代理在桌面环境中的表现。研究表明,现有模型在理解专业软件、空间推理和复杂动作(如拖拽)方面存在显著局限性,凸显了开发完全自主的计算机使用代理的挑战。通过开源UI-Vision,研究团队旨在推动更强大的桌面任务代理的开发,并为未来的GUI自动化研究提供坚实的基础。
相关研究论文
  • 1
    UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and InteractionMila - Quebec AI Institute, Universitée de Montréal, ServiceNow, University of Waterloo, National University of Singapore, École de Technologie Supérieure, CIFAR AI Chair, Polytechnique Montréal · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

BDD100K

数据集推动了视觉的进步,但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究,以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K,包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究了如何一起解决这些任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录

UAV-VisLoc - 用于无人机视觉定位的大规模数据集

UAV-VisLoc数据集由北京邮电大学、中科院和香港城市大学联合构建,旨在解决无人机在失去全球导航卫星系统信号时的精确定位问题。该数据集涵盖了中国11个不同地点的无人机图像,捕获了多样化的地形特征,包括固定翼无人机和多地形无人机在不同高度和方向上拍摄的6742张图像以及11幅卫星地图。每张图像均附有经纬度、高度、拍摄日期和航向角等元数据,为模型的训练与测试提供了丰富多元的数据支持。UAV-VisLoc数据集用于支持无人机视觉定位任务,为无人机视觉定位任务提供了训练和测试样本,通过匹配无人机拍摄的地面向下视角图像与正射卫星地图,实现无人机的自主视觉定位。

github 收录