GUI-Actor-Data

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/cckevinn/GUI-Actor-Data

下载链接

链接失效反馈

官方服务：

资源简介：

GUI-Actor数据集是一个用于GUI grounding训练的数据集，包含约1百万个屏幕截图和10百万个元素。这些数据主要来源于六个公开数据集，包括Uground、GUICourse、AMEX、AndroidControl和Wave-UI。数据集以屏幕截图和包含边界框标注的JSON文件形式提供。

The GUI-Actor dataset is a dedicated dataset for GUI grounding training, containing approximately 1 million screenshots and 10 million elements. These data are mainly sourced from six public datasets including Uground, GUICourse, AMEX, AndroidControl and Wave-UI. The dataset is provided in the form of screenshots and JSON files with bounding box annotations.

创建时间：

2025-06-08

原始信息汇总

GUI-Actor 数据集概述

数据集简介

名称: GUI-Actor Data Collection
用途: 用于带有边界框监督的GUI grounding训练
数据量: 约100万张截图和1000万个元素

数据来源

主要来自六个公共数据集：
- Uground
- GUICourse
- AMEX
- AndroidControl
- Wave-UI（排除了与测试集重叠的样本）

数据内容

包含截图和已处理的JSON文件（带有边界框监督）

数据下载与处理

Uground数据:
- 需合并六个文件为一个ZIP文件后解压 bash cat Uground_images_split.z* Uground_images_split.zip > Uground_images.zip 7z x Uground_images.zip -aoa -o/path/to/extract/folder
AMEX数据:
- 需合并三个文件为一个ZIP文件后解压 bash cat amex_images_part_* > amex_images.zip 7z x amex_images.zip -aoa -o/path/to/extract/folder

引用

bibtex @article{wu2025gui, title={GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents}, author={Wu, Qianhui and Cheng, Kanzhi and Yang, Rui and Zhang, Chaoyun and Yang, Jianwei and Jiang, Huiqiang and Mu, Jian and Peng, Baolin and Qiao, Bo and Tan, Reuben and others}, journal={arXiv preprint arXiv:2506.03143}, year={2025} }

搜集汇总

数据集介绍

构建方式

在图形用户界面（GUI）领域的研究中，GUI-Actor数据集通过整合六个公开数据集构建而成，包括Uground、GUICourse、AMEX、AndroidControl和Wave-UI等。数据集构建过程中，研究人员对原始数据进行了严格筛选，剔除了与测试集重叠的样本，确保了数据的独立性和有效性。最终数据集包含约100万张屏幕截图和1000万个界面元素，每张截图均配有经过处理的JSON文件，提供边界框监督信息，为GUI视觉定位任务提供了高质量的训练资源。

特点

GUI-Actor数据集以其规模庞大和标注精细而著称，涵盖了多样化的GUI界面元素和场景。数据集中每个元素均通过边界框精确标注，为模型训练提供了可靠的监督信号。特别值得注意的是，数据集整合了多个来源的GUI数据，既保证了数据的多样性，又通过严格的去重和筛选流程确保了数据质量。这种多源数据融合的策略使得该数据集能够全面覆盖不同平台和风格的GUI界面，为GUI智能代理的视觉定位任务提供了丰富的学习素材。

使用方法

使用GUI-Actor数据集时，用户需从HuggingFace平台下载数据文件，并根据不同子集的特点进行相应处理。对于Uground子集，需要将分割的压缩文件合并后解压；AMEX子集同样需要合并三个分卷文件后再进行解压操作。数据集的使用方式在其GitHub仓库的data_config.yaml文件中有详细说明，用户可根据需求灵活配置训练数据。该数据集主要服务于GUI视觉定位模型的训练，研究人员可以借助其提供的边界框监督信息，开发能够精确定位GUI元素的智能代理系统。

背景与挑战

背景概述

GUI-Actor-Data数据集由微软研究院于2025年发布，旨在为图形用户界面（GUI）的视觉定位任务提供高质量的标注数据支持。该数据集的核心研究问题聚焦于无坐标系的GUI元素视觉定位，通过边界框监督的方式训练智能体理解复杂界面结构。数据集整合了六个公开数据集资源，包含约100万张屏幕截图和1000万个界面元素，为GUI智能体领域的研究提供了规模空前的多源基准。相关成果以《GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents》为题发表于计算机视觉与人机交互交叉领域，推动了自动化界面理解技术的发展。

当前挑战

该数据集面临的领域挑战主要体现为GUI元素的异构性识别问题，包括动态界面布局的适应性解析、多分辨率屏幕的跨设备泛化能力，以及遮挡元素的精准定位。在构建过程中，技术团队需克服多源数据融合的标注标准统一难题，处理因界面渲染差异导致的边界框标注噪声，并设计分布式存储方案以应对240GB原始图像数据的工程化管理。数据集的分布式存储架构虽解决了大文件托管问题，但用户需通过复杂的文件合并操作才能完整获取数据资源。

常用场景

经典使用场景

在图形用户界面（GUI）自动化与智能交互领域，GUI-Actor-Data数据集为研究者提供了丰富的视觉基础数据。该数据集通过整合来自Uground、GUICourse、AMEX等六个公开数据集的百万级截图与千万级界面元素，构建了当前最全面的GUI视觉基础训练集。其经典使用场景体现在为GUI智能代理的视觉定位任务提供端到端的训练框架，特别是基于边界框监督的坐标无关视觉基础方法验证。

实际应用

在实际应用层面，GUI-Actor-Data支撑了包括自动化软件测试、无障碍辅助技术、智能RPA流程开发等多个工业场景。微软团队基于该数据集开发的GUI-Actor框架已能实现复杂应用界面的元素精准定位与操作序列生成，大幅降低了人机交互自动化的实现门槛。特别在移动端应用自动化测试中展现出显著优势。

衍生相关工作

该数据集已衍生出多个重要研究方向。微软研究院提出的坐标无关视觉基础框架GUI-Actor成为领域标杆工作，后续研究如Wave-UI的跨模态交互分析、AMEX的移动端元素检测优化等方法均基于此数据集展开。其开放的数据标准也促进了GUINN等新型评估基准的建立，推动了整个GUI智能交互领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集