DeskVision

Name: DeskVision
Creator: 摩尔线程人工智能
Published: 2025-03-14 16:16:02
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.11170v1

下载链接

链接失效反馈

官方服务：

资源简介：

DeskVision是一个专注于日常用户场景的大型桌面GUI数据集，由摩尔线程人工智能创建。该数据集包含54855张图像和303622个注释，涵盖了Windows、macOS和Linux等不同操作系统的平衡数据，以及丰富的文本和图标UI元素详细区域注释。DeskVision的构建旨在解决桌面GUI数据不足的问题，并推进GUI智能体的发展。

DeskVision is a large-scale desktop GUI dataset focused on daily user scenarios, created by Moore Threads AI. This dataset contains 54,855 images and 303,622 annotations, covering balanced data across different operating systems such as Windows, macOS, and Linux, as well as detailed regional annotations for rich text and icon UI elements. The construction of DeskVision aims to address the shortage of desktop GUI data and advance the development of GUI AI Agents.

提供机构：

摩尔线程人工智能

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

DeskVision数据集的构建采用了自动化GUI数据生成管道AutoCaptioner，该管道通过结合UI检测模型和大规模多模态模型，自动生成大规模、多样化的真实场景数据。具体而言，数据集通过从互联网收集桌面截图，并利用分类器进行数据过滤，确保数据的质量。随后，通过UI检测器和UI描述器对截图中的交互式UI元素进行定位和描述，生成丰富的区域标注。整个过程显著减少了人工干预，确保了数据的高效生成。

特点

DeskVision数据集包含54,855张桌面截图和303,622个标注，涵盖了Windows、macOS和Linux等多种操作系统，平衡了文本和图标/小部件等UI元素的比例。每个UI元素都附有详细的区域描述，包括文本、类型和属性信息。此外，数据集还包含一个精心策划的测试基准DeskVision-Eval，包含5,000个样本，旨在捕捉真实世界用例的多样性。这些特点使得DeskVision成为当前最大且最具代表性的桌面GUI数据集之一。

使用方法

DeskVision数据集可用于训练和评估GUI理解模型，特别是那些需要精确识别和定位UI元素的模型。通过结合现有的多模态数据集，研究人员可以训练出强大的GUI视觉理解模型，如GUIExplorer。该模型在多个基准测试中表现出色，证明了DeskVision数据集的有效性。此外，数据集还可用于消融研究，验证其对大规模视觉语言模型（LVLMs）在GUI相关任务中的性能提升作用。

背景与挑战

背景概述

DeskVision数据集由Moore Threads AI的研究团队于2025年提出，旨在解决图形用户界面（GUI）代理开发中的数据瓶颈问题。随着大语言模型（LLMs）和大视觉语言模型（LVLMs）的兴起，GUI代理的开发需求日益增长，尤其是在桌面和计算机使用场景中。然而，现有的GUI数据集主要集中于移动和网页应用，缺乏大规模的桌面GUI数据。为此，研究团队提出了自动化GUI数据生成管道AutoCaptioner，并创建了DeskVision数据集，包含54,855张桌面截图和303,622条标注，涵盖了多种操作系统和UI元素。该数据集不仅为GUI代理的训练提供了丰富的数据支持，还推动了GUI理解模型的性能提升。

当前挑战

DeskVision数据集在构建过程中面临多重挑战。首先，桌面GUI数据的稀缺性是一个主要问题，现有的数据集如OS-Atlas虽然规模较大，但其数据主要通过合成生成，难以反映真实使用场景，且操作系统分布不均衡。其次，缺乏高效的自动化数据采集和标注工具，导致数据获取依赖人工标注，耗时且成本高昂。此外，现有数据集缺乏对图标、控件等关键UI元素的详细描述，限制了GUI代理的视觉感知能力。最后，桌面领域的测试基准数据匮乏，现有的基准如ScreenSpot仅包含少量桌面数据，无法满足多样化的测试需求。这些挑战促使研究团队开发了AutoCaptioner管道，以自动化方式生成高质量、多样化的桌面GUI数据，并构建了DeskVision-Eval测试基准，填补了桌面GUI研究领域的数据空白。

常用场景

经典使用场景

DeskVision数据集在图形用户界面（GUI）智能代理的开发中扮演了关键角色。通过其自动化数据生成管道AutoCaptioner，DeskVision能够生成包含丰富描述的桌面GUI数据，极大减少了人工标注的需求。该数据集广泛应用于训练GUI理解模型，如GUIExplorer，帮助模型在无需复杂架构设计的情况下，实现对视觉元素的精准理解和定位。

解决学术问题

DeskVision解决了GUI代理开发中的两大核心问题：一是缺乏大规模、高质量的桌面GUI数据，尤其是跨操作系统的数据；二是现有数据集缺乏详细的区域描述和交互元素标注。通过提供平衡的跨平台数据和丰富的区域描述，DeskVision显著提升了GUI代理在视觉元素理解、定位和交互任务中的表现，填补了现有研究的空白。

衍生相关工作

DeskVision的推出催生了一系列相关研究工作，尤其是在GUI代理领域。基于该数据集，研究者开发了GUIExplorer模型，该模型在多个基准测试中达到了最先进的性能。此外，DeskVision还启发了其他跨平台GUI数据集和模型的开发，如Ferret-UI和CogAgent，进一步推动了GUI代理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集