macpaw-research/GUIrilla-Task

Name: macpaw-research/GUIrilla-Task
Creator: macpaw-research
Published: 2026-05-04 08:59:46
License: 暂无描述

Hugging Face2026-05-04 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/macpaw-research/GUIrilla-Task

下载链接

链接失效反馈

官方服务：

资源简介：

GUIrilla-Task数据集将真实的macOS屏幕截图与自由形式的自然语言指令及精确的GUI动作配对。每个样本要求代理执行以下操作之一：点击特定的屏幕元素，或在输入字段中键入给定的文本。目标通过边界框几何进行标记，从而能够对视觉语言基础模型进行精确评估。数据通过GUIrilla爬虫自动收集，该爬虫利用macOS Accessibility API探索应用程序，同时GPT-4代理生成多样化的用户风格任务。数据集包含多个字段，如屏幕ID、应用程序名称、任务、动作等，并分为训练集和测试集，两者在应用程序级别上不重叠。数据集主要用于训练和评估macOS GUI代理，以及进行学术研究，采用CC-BY-NC-4.0许可证。

GUIrilla-Task pairs real macOS screenshots with free-form natural-language instructions and precise GUI actions. Every sample asks an agent either to click a specific on-screen element or to type a given text into an input field. Targets are labelled with bounding-box geometry, enabling exact evaluation of visual-language grounding models. Data were gathered automatically by the GUIrilla crawler, which explores applications via the macOS Accessibility API while GPT-4 agents generate diverse, user-style tasks. The dataset includes fields such as screen_id, app_name, task, action, etc., and is divided into training and test sets, which are application-level disjoint. The dataset is intended for training and evaluating macOS GUI agents and academic research, licensed under CC-BY-NC-4.0.

提供机构：

macpaw-research

搜集汇总

数据集介绍

构建方式

GUIrilla-Task数据集的构建依托于自主开发的GUIrilla爬虫框架，该框架借助macOS无障碍接口（Accessibility API）自动探索各类应用程序。在探索过程中，GPT-4智能体被用于生成多样化、贴近真实用户风格的自然语言指令，并对应标注出精确的点击（Click）或键入（Type）动作。每个样本均包含全分辨率屏幕截图及其裁剪后的应用窗口图、无障碍树状结构、缩放因子以及包含边界框与角色标签的元素元数据。数据集的训练集与测试集在应用层面严格隔离，确保同一应用版本不会同时出现在两个划分中。

特点

该数据集的核心特色在于其高质量、细粒度的视觉语言标注体系。样本指令均为自由形式的自然语言，覆盖搜索与信息、文件操作等多类任务场景。动作标注不仅区分点击与键入，还为点击提供元素边界框，为键入提供插入位置和预期文本，支持对视觉语言模型的精准评估。此外，数据集提供了完整的无障碍树结构，使研究能够结合UI的结构化信息进行分析。两万余个训练样本与独立的测试集划分为模型开发与公开对比提供了坚实的基准。

使用方法

用户可通过HuggingFace的Datasets库便捷加载GUIrilla-Task数据集，指定split参数获取训练或测试子集。每条记录包含task字段的自然语言指令与action字段的标准动作字符串，可直接用于视觉语言模型的指令跟随训练。图像数据以PIL.Image对象返回，可进行可视化展示。评论家指出，数据集适用于训练macOS环境下的图形界面智能体、开展无障碍技术研究以及多模态基础模型的语义对齐，但应遵循非商业许可协议，且不宜在缺乏人类监督的安全关键自动化中直接部署。

背景与挑战

背景概述

图形用户界面（GUI）自动化是人工智能领域的一项重要研究课题，旨在使智能体能够像人类一样通过视觉感知和理解来操作数字界面。GUIrilla-Task数据集由MacPaw研究团队于2025年创建，并发表于arXiv预印本（编号2510.16051），主要研究人员包括Sofiya Garkot、Maksym Shamrai、Ivan Synytsia和Mariya Hirna。该数据集聚焦于macOS桌面环境的GUI操作任务，核心研究问题在于构建一个能够精确评估视觉语言模型在真实GUI场景中执行点击与输入指令能力的大规模基准。通过耦合自然语言指令与精确的边界框标注，GUIrilla-Task为多模态基础模型在桌面自动化、无障碍测试及机器人流程自动化（RPA）等领域的性能评估提供了关键数据支持，对推动GUI智能体的研究与发展具有重要影响力。

当前挑战

该数据集所解决的领域问题核心挑战在于，现有GUI操作数据集多集中于移动端或网页环境，缺乏覆盖macOS桌面应用的高质量、带有精确视觉定位标注的数据，导致视觉语言模型在桌面GUI自动化任务中的研究严重受限。构建过程中面临的挑战包括：如何通过macOS辅助功能API实现自动化、高效的屏幕截图与元素数据采集，同时确保数据覆盖不同应用程序的多样性；如何利用GPT-4生成符合人类习惯的自然语言指令，并自动将其与对应的点击或输入动作进行精准配对；以及如何在构建大规模数据集时，保持训练集与测试集在应用层面的严格分离，以客观评估模型的泛化能力。

常用场景

经典使用场景

GUIrilla-Task数据集为训练与评估基于视觉语言模型的桌面GUI智能体提供了理想的基准资源。该数据集收录了超过2.5万个真实macOS屏幕截图样本，每项样本均配以自然语言指令与精准的点击或键入动作标签，以及相应的边界框几何信息。研究者可借助该数据集，在完全可重复的条件下测试模型对GUI元素的视觉定位能力与指令跟随能力，从而推动以屏幕截图为核心的多模态人机交互研究。

衍生相关工作

围绕GUIrilla-Task数据集，学术界已涌现出多项奠基性工作与衍生成果。原始论文《GUIrilla: A Scalable Framework for Automated Desktop UI Exploration》系统介绍了数据爬取框架与GPT-4指令生成范式。基于该数据集可衍生的研究方向包括：基于对比学习的GUI元素语义检索模型、适用于macOS的多模态动作预测网络、以及面向界面元素序列的端到端指令跟踪架构。此外，该数据集还可作为跨平台迁移学习的评测工具，促进从macOS到Windows、Linux等系统的GUI智能体泛化研究。

数据集最近研究