GUIrilla-Task

Hugging Face2026-01-27 更新2026-01-28 收录

下载链接：

https://huggingface.co/datasets/macpaw-research/GUIrilla-Task

下载链接

链接失效反馈

官方服务：

资源简介：

GUIrilla-Task 数据集是一个包含真实 macOS 屏幕截图与自然语言指令及精确 GUI 操作（点击或输入）配对的数据集。每个样本要求代理执行以下操作之一：点击屏幕上的特定元素或在输入字段中输入给定文本。目标标注了边界框几何信息，支持对视觉-语言基础模型进行精确评估。数据通过 GUIrilla 爬虫自动收集，该爬虫通过 macOS 辅助功能 API 探索应用程序，同时 GPT-4 代理生成多样化的用户风格任务。数据集包含 25,606 个训练样本和 1,565 个测试样本，总大小约为 50.1 GB。数据集字段包括屏幕 ID、应用名称、任务指令、操作类型、图像数据、辅助功能树、元素数据等。适用于 macOS GUI 代理的训练与评估、学术研究等场景，但不建议用于商业再分发或安全关键自动化部署。

The GUIrilla-Task Dataset is a dataset pairing real macOS screenshots, natural language instructions, and precise GUI operations (clicking or text input). Each sample requires the agent to perform one of the following actions: click a specific on-screen element or input given text into an input field. Targets are annotated with bounding box geometric information, enabling precise evaluation of vision-language foundation models. The dataset is automatically collected via the GUIrilla crawler, which explores applications through the macOS Accessibility API, while GPT-4 agents generate diverse user-style tasks. It contains 25,606 training samples and 1,565 test samples, with a total size of approximately 50.1 GB. Dataset fields include screen ID, application name, task instruction, operation type, image data, accessibility tree, element data, and more. It is suitable for scenarios including training and evaluation of macOS GUI agents, academic research, and other related applications, but is not recommended for commercial redistribution or safety-critical automated deployments.

创建时间：

2026-01-22

原始信息汇总

GUIrilla-Task 数据集概述

数据集简介

GUIrilla-Task 数据集将真实的 macOS 屏幕截图与自由形式的自然语言指令以及精确的 GUI 操作配对。每个样本要求智能体执行以下操作之一：

点击屏幕上特定的元素，或
键入给定的文本到输入字段中。目标元素均标注了边界框几何信息，支持对视觉-语言基础模型进行精确评估。数据由 GUIrilla 爬虫 自动收集，该爬虫通过 macOS 辅助功能 API 探索应用程序，同时 GPT-4 智能体生成多样化的、用户风格的任务。

数据集结构

数据字段

字段名	类型	描述
`screen_id`	`int32`	唯一的屏幕截图索引。
`app_name`	`string`	应用程序包名（例如 `com.apple.Safari`）。
`task`	`string`	最终清理后的指令。
`raw_task`	`string`	原始任务草稿。
`action`	`string`	为 `"left click"` 或 `"type <text>"`。
`image`	`image`	全分辨率 PNG 图像。
`image_cropped`	`image`	应用程序窗口的紧密裁剪图像。
`accessibility`	`string`	应用程序窗口的辅助功能 JSON 树。
`scaling_factor`	`float32`	捕获时的 UI 缩放因子。
`element_data`	`string`	边界框/多边形/角色/标签的 JSON 数据。
`original_task`	`bool`	如果任务是在 macOS 环境中执行的，则为 `True`。
`task_category`	`string`	高级任务类别（搜索与信息、文件等）。
`element_category`	`string`	高级辅助功能角色（`button`、`textfield` 等）。

如果任务是点击，element_data 包含一个边界框。如果是键入，则存储插入位置和预期文本。

数据划分

划分	样本数量	未压缩大小	说明
`train`	25,606	47.8 GB	用于训练和开发实验。
`test`	1,565	2.32 GB	用于公共排行榜。

两个划分在 应用程序级别是互斥的：特定的应用程序版本不会同时出现在两个划分中。

预期用途

✔️ 推荐用途	❌ 不推荐用途
训练和评估 macOS GUI 智能体（视觉-语言模型、机器人流程自动化、强化学习）。	商业再分发（许可证为 NC）。
关于辅助功能、自动化测试、多模态基础研究的学术研究。	在没有人工监督的情况下部署于安全关键型自动化任务。

技术详情

许可证：CC-BY-NC-4.0。
下载大小：46,883,441,008 字节。
数据集总大小：50,108,865,301 字节。

引用信息

如需使用此数据集，请引用以下论文：

@article{garkot2025guirilla, title={GUIrilla: A Scalable Framework for Automated Desktop UI Exploration}, author={Garkot, Sofiya and Shamrai, Maksym and Synytsia, Ivan and Hirna, Mariya}, journal={arXiv preprint arXiv:2510.16051}, year={2025}, url={https://arxiv.org/abs/2510.16051} }

搜集汇总

数据集介绍

构建方式

在图形用户界面自动化研究领域，数据集的构建往往依赖于对真实交互环境的精准模拟。GUIrilla-Task数据集通过创新的GUIrilla爬虫系统，自动化地探索macOS应用程序界面来构建。该系统利用macOS的无障碍访问API，实时捕获应用程序的屏幕截图及其对应的可访问性元素树。同时，借助GPT-4智能体生成多样化的、贴近用户实际使用场景的自然语言指令，为每张截图标注了精确的点击或输入操作，并辅以目标元素的边界框几何信息，从而实现了大规模、高质量的GUI指令-动作对数据采集。

特点

该数据集的核心特点在于其真实性与精确性。所有数据均源自真实的macOS操作系统环境，确保了屏幕截图与交互元素的真实性。数据集严格区分了“点击”与“输入”两类基础且关键的GUI操作，为模型学习提供了清晰的任务定义。每个样本不仅包含完整的屏幕图像和裁剪后的应用窗口视图，还提供了详尽的无障碍访问树和元素元数据，为多模态模型理解界面结构与元素语义提供了丰富上下文。此外，训练集与测试集在应用程序层面完全隔离，有效避免了数据泄露，保障了评估结果的可靠性。

使用方法

该数据集主要服务于视觉-语言模型在图形用户界面理解与自动化任务上的训练与评估。研究人员可使用Hugging Face `datasets`库便捷地加载数据，获取包含图像、指令、动作及丰富元数据的样本。在模型训练阶段，可利用其提供的精确边界框标注，驱动模型学习将自然语言指令映射到屏幕上的具体空间位置或文本输入行为。在评估阶段，该数据集能够为GUI智能体提供标准化的测试基准，通过计算预测动作与真实标注在几何或语义上的一致性，来客观衡量模型在真实桌面环境中的交互能力与视觉 grounding 精度。

背景与挑战

背景概述

在人工智能与图形用户界面交互研究领域，自动化任务执行已成为提升人机协作效率的关键方向。GUIrilla-Task数据集于2025年由Garkot等人提出，旨在为macOS环境下的视觉语言模型提供高质量的标注数据。该数据集通过GUIrilla爬虫自动采集真实屏幕截图，并利用GPT-4智能体生成多样化的自然语言指令，精确标注点击与输入两类核心交互动作。其核心研究问题聚焦于视觉语言基础模型的精准评估与训练，为图形界面自动化、辅助技术及多模态学习等前沿领域提供了重要的基准资源。

当前挑战

该数据集致力于解决图形用户界面中视觉语言基础任务的挑战，即如何准确理解自然语言指令并映射到屏幕元素的具体操作，这要求模型具备细粒度的视觉语义解析与空间推理能力。在构建过程中，研究团队面临自动化数据采集的复杂性，包括通过macOS无障碍API可靠提取界面元素信息、确保标注的几何精度（如边界框），以及维持训练与测试集在应用层面的严格分离，以避免数据泄露并保证评估的公正性。

常用场景

经典使用场景

在图形用户界面智能体研究领域，GUIrilla-Task数据集为视觉-语言模型提供了精准的评估基准。该数据集通过结合macOS屏幕截图与自然语言指令，要求智能体执行点击或键入操作，其标注的边界框几何信息使得模型能够进行精确的视觉定位。这一场景典型地应用于训练和评估基于多模态输入的自动化GUI交互模型，为学术界提供了标准化的测试环境，以衡量模型在真实桌面环境中的理解与执行能力。

解决学术问题

GUIrilla-Task数据集有效解决了多模态学习中的视觉语言接地问题，即如何将自然语言指令映射到屏幕上的具体视觉元素并执行相应动作。它通过提供大规模、高质量的标注数据，支持研究模型在复杂、动态的图形界面中的泛化能力与鲁棒性。该数据集的意义在于推动了自动化软件测试、辅助技术及人机交互等领域的基础研究，为构建更智能的桌面助手奠定了数据基础。

衍生相关工作

围绕GUIrilla-Task数据集，已衍生出一系列经典研究工作，主要集中在基于视觉的GUI智能体架构设计。例如，研究者利用该数据集训练端到端的模型，将屏幕截图与指令作为输入，直接预测动作坐标或文本输入。相关工作还探索了结合可访问性树等结构化信息的多模态融合方法，以提升模型对界面元素的理解精度，这些进展共同推动了桌面自动化向更通用、更可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集