macpaw-research/GUIrilla-Gold
收藏Hugging Face2026-05-04 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/macpaw-research/GUIrilla-Gold
下载链接
链接失效反馈官方服务:
资源简介:
GUIrilla-Gold基准测试是从GUIrilla-Task中手动标注的测试部分。数据集包含多个字段,如唯一的屏幕截图索引、应用程序包名称、最终清理后的指令、原始任务草稿、操作类型(左键点击或输入文本)、全分辨率PNG图像、应用程序窗口的紧密裁剪图像、应用程序窗口的可访问性JSON树、UI缩放比例、元素的边界框/多边形/角色/标签JSON数据、任务是否在macOS环境中执行的标志、高级任务类别(搜索与信息、文件等)以及高级AX角色(按钮、文本字段等)。
The GUIrilla-Gold benchmark is manually annotated test part from GUIrilla-Task. The dataset includes fields such as unique screenshot index, application bundle name, final cleaned instruction, raw task draft, action type (either left click or type <text>), full-resolution PNG image, tight crop of the app window, accessibility JSON tree for the app window, UI scaling factor, bounding-box/polygon/role/label in JSON, flag indicating if the task was performed in the macOS environment, high-level task category (Search & Information, Files etc.), and high-level AX role (button, textfield, etc.).
提供机构:
macpaw-research
搜集汇总
数据集介绍

构建方式
GUIrilla-Gold数据集源自GUIrilla-Task,是一个经过人工精心标注的测试子集。其构建过程首先通过自动化框架在macOS环境下收集大量桌面UI交互数据,获取原始屏幕截图、操作指令及辅助功能树等原始信息。随后,标注者对原始任务描述进行清洗与标准化,形成最终指令,并对每个样本的操作类型(如左键点击或文本输入)进行明确标注。此外,数据集中还包含了完整的UI元素信息,如边界框、多边形、角色及标签等,以确保数据的准确性与完备性。
特点
该数据集的核心特点在于其高质量的人工标注与丰富的多模态信息整合。每个样本均包含全分辨率PNG图像及裁剪后的应用窗口图像,辅以详细的Accessibility JSON树和UI缩放因子,为研究提供了全面的上下文信息。数据集覆盖了如搜索与信息、文件管理等多样化任务类别,以及按钮、文本框等多种元素类别,展现了广泛的场景覆盖。同时,通过区分原始任务是否在macOS环境中执行,增强了数据的真实性与适用性。
使用方法
GUIrilla-Gold数据集可通过HuggingFace Datasets库便捷加载,用户仅需调用`load_dataset("macpaw-research/GUIrilla-Gold")`即可获取训练集。加载后,每个样本以字典形式呈现,包含任务描述、操作类型及图像路径等字段。用户可利用PIL库打开并展示全分辨率图像或裁剪后的应用窗口图像,便于直观理解数据。该数据集特别适用于训练和评估桌面GUI自动化代理,支持基于视觉的指令跟随与交互建模研究。
背景与挑战
背景概述
GUIrilla-Gold数据集由MacPaw研究团队于2025年创建,发表于arXiv预印本(编号2510.16051),主要研究人员包括Sofiya Garkot、Maksym Shamrai等人。该数据集聚焦于桌面图形用户界面(GUI)自动化领域,旨在解决智能体在真实macOS环境中的操作理解与指令执行问题。作为GUIrilla-Task基准的手工标注测试子集,它包含1283个多样化任务样本,覆盖应用交互、搜索浏览、文件管理等多种任务类别,并提供了高分辨率截图、裁剪窗口、无障碍属性树及元素边界框等丰富标注信息。GUIrilla-Gold的推出填补了桌面GUI智能体领域缺乏高质量人工验证数据集(Sofiya Garkot等人)的空白,为评估模型在真实桌面场景下的动作预测能力提供了权威基准。
当前挑战
该数据集面临的核心挑战包括:1)领域问题层面,桌面GUI操作具有高度复杂性,不同应用界面布局差异显著,且涉及多步交互任务(如点击、输入文本等),现有模型难以准确理解UI元素的空间关系与语义角色;2)构建过程中,手动标注1283个样本需要精细的逐屏幕标注,确保动作与UI元素的精确对应(如边界框坐标与操作类型),同时需处理多分辨率截图、不同缩放因子及应用窗口的裁剪对齐问题;此外,原始任务指令的长尾分布与噪声清理也增加了数据质量控制的难度,最终形成的高可靠性标注对自动化探索框架的鲁棒性提出了严苛要求。
常用场景
经典使用场景
GUIrilla-Gold数据集聚焦于桌面图形用户界面的智能交互任务,其经典使用场景在于训练与评测自动化GUI操作代理。研究者和工程师可借助该数据集,构建能够理解屏幕截图、解析无障碍树结构并执行如左键点击或文本输入等动作的智能体模型。数据集中每一条目均包含高分辨率屏幕截图、经裁剪的应用窗口图像、精确的操作标注及其对应的文字指令,为端到端的视觉语义对齐与行为决策提供了高质量的监督信号。此类场景覆盖了从简单导航到复杂多步操作的各种任务类别,是开展基于视觉的界面理解与自动操作研究的理想起点。
解决学术问题
该数据集有效应对了桌面环境GUI理解与自动化控制领域中长期存在的三个核心学术问题:一是缺乏大规模、细粒度标注的真实桌面操作样本,二是在多元应用与动态界面下保证模型泛化能力的挑战,三是如何将操作指令、视觉状态与无障碍语义信息统一建模的难题。GUIrilla-Gold通过提供涵盖13类任务类别、超过1280个精心标注的屏幕-动作对,并附带完整的无障碍树JSON结构,使得研究者能够更系统性地探索多模态表征学习、指令理解与动作规划等课题。其发布对推动桌面AI智能体从理论走向可复现评估具有关键支撑意义。
衍生相关工作
围绕GUIrilla-Gold衍生出多个有影响力的相关工作。最直接的后续方向是构建基于该数据集的基准模型,例如设计将图像编码器与动作解码器端到端联合训练的视觉语言模型,用于评估单一屏幕快照下的操作预测精度。另一类相关工作是探究数据增强与领域迁移策略,利用GUIrilla-Gold中的缩放因子与裁剪图像来训练更具鲁棒性的界面元素检测器,并尝试将其泛化至Windows或Linux桌面环境。此外,该数据集还促进了多模态提示学习与无障碍语义融合的研究,启发了将空间定位、角色分类与指令推理协同优化的新型注意力机制架构。这些衍生的研究共同编织起桌面GUI智能化的前沿探索网络。
以上内容由遇见数据集搜集并总结生成



