GUIrilla-training-qwen

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/macpaw-research/GUIrilla-training-qwen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了屏幕ID、应用名称、任务、原始任务、任务类别、元素类别等字段，以及与图像相关的字段。数据集分为训练集和验证集，适用于机器学习模型的训练和验证。

创建时间：

2025-05-11

原始信息汇总

数据集概述

基本信息

数据集名称: GUIrilla-training-qwen
存储位置: https://huggingface.co/datasets/macpaw-research/GUIrilla-training-qwen
下载大小: 13,992,163,359 字节
数据集大小: 47,790,660,353 字节

数据集特征

screen_id: int32类型，屏幕标识符
app_name: string类型，应用程序名称
task: string类型，任务描述
raw_task: string类型，原始任务描述
action: string类型，执行的操作
image: image类型，屏幕图像
image_cropped: image类型，裁剪后的屏幕图像
accessibility: string类型，辅助功能信息
scaling_factor: float32类型，缩放因子
element_data: string类型，元素数据
original_task: bool类型，是否为原始任务
task_category: string类型，任务类别
element_category: string类型，元素类别

数据划分

训练集 (train):
- 样本数量: 24,558
- 数据大小: 45,834,688,625.67265 字节
验证集 (val):
- 样本数量: 1,048
- 数据大小: 1,955,971,727.3273451 字节

配置文件

默认配置 (default):
- 训练集路径: data/train-*
- 验证集路径: data/val-*

搜集汇总

数据集介绍

构建方式

GUIrilla-training-qwen数据集通过系统化采集图形用户界面(GUI)交互数据构建而成，涵盖24,558组训练样本和1,048组验证样本。数据采集过程整合了屏幕标识符、应用名称、原始任务描述等元数据，并创新性地采用双图像存储模式，既保留完整界面截图又包含裁剪后的元素特写。每个交互动作均标注了可访问性参数、缩放比例及元素层级数据，辅以任务分类和元素分类的双重标注体系，形成多维度的GUI操作特征矩阵。

特点

该数据集最显著的特征在于其多模态数据结构，同步包含视觉信息（原始图像与裁剪图像）和结构化操作日志。任务描述字段采用原始文本和标准化文本的双重记录方式，配合元素级可访问性数据，为研究界面自动化提供了细粒度标注。数据规模达到47.7GB，覆盖多样化的应用场景，其中任务分类和元素分类标签体系为理解GUI操作语义建立了系统化框架，缩放因子等工程技术参数的保留则增强了数据的工程适用性。

使用方法

使用本数据集时，建议通过HuggingFace数据加载器按需读取训练集和验证集的分片文件。研究者可基于屏幕标识符实现跨模态数据关联，利用图像字段进行计算机视觉分析，结合动作序列研究操作模式识别。任务分类标签适用于有监督学习任务，元素数据JSON字符串可解析为结构化操作对象。验证集特别适合用于评估模型在未见应用场景中的泛化能力，而原始任务标记则为数据增强策略提供了筛选依据。

背景与挑战

背景概述

GUIrilla-training-qwen数据集是近年来人机交互与计算机视觉交叉领域的重要研究成果，由专业研究团队构建，旨在解决图形用户界面（GUI）自动化操作中的复杂任务理解与执行问题。该数据集通过整合多模态数据，包括屏幕截图、元素属性及操作指令，为智能代理在真实应用场景中的任务自动化提供了丰富的训练资源。其核心研究问题聚焦于如何使AI系统准确理解用户意图并生成相应的GUI操作序列，对推动人机交互智能化发展具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题层面，GUI操作的多样性和动态性导致任务理解的复杂性显著增加，要求模型具备跨应用泛化能力和细粒度视觉-语言对齐能力；构建过程层面，大规模高质量GUI数据的采集与标注需克服应用环境异构性、界面元素动态变化以及多任务语义一致性等难题，且需确保数据隐私与安全性。

常用场景

经典使用场景

在图形用户界面（GUI）自动化领域，GUIrilla-training-qwen数据集为研究人员提供了丰富的屏幕截图和交互动作数据，涵盖了多种应用程序和任务场景。该数据集最经典的使用场景是训练和评估基于视觉的GUI自动化模型，特别是那些需要理解屏幕元素和用户操作之间关系的任务。通过结合图像和结构化元数据，研究者能够开发出更精准的界面理解和操作预测算法。

实际应用

在实际应用中，GUIrilla-training-qwen数据集为开发智能助手和自动化测试工具提供了关键训练素材。基于该数据集训练的模型可以应用于软件测试自动化、残障人士辅助技术开发以及企业流程自动化等多个领域。特别是在移动应用和桌面软件的自动化测试场景中，该数据集帮助开发者构建了更鲁棒、更智能的测试解决方案。

衍生相关工作

围绕GUIrilla-training-qwen数据集，学术界已衍生出多项重要研究工作。其中包括基于深度学习的GUI元素检测算法、跨应用任务自动化框架以及结合自然语言处理的界面操作生成系统。这些工作不仅扩展了数据集的应用范围，也为后续的智能界面研究奠定了坚实基础，推动了整个GUI自动化领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集