gui_full

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/JackyZhuo/gui_full

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含了视频及其相关特征的机器学习数据集，其中包括视频ID、标题、操作系统、场景数量、场景时间戳、屏幕边界框、UI元素边界框、原始动作信息、动作类型、动作位置、抬起动作、触摸动作、视频帧率、视频宽度和高度等信息。数据集分为训练集，共有772个样本。

创建时间：

2025-08-25

搜集汇总

数据集介绍

构建方式

在图形用户界面自动化研究领域，gui_full数据集通过系统化采集真实应用程序的界面层级结构数据构建而成。研究团队采用自动化脚本遍历多种主流操作系统平台的应用界面，提取包含控件类型、位置坐标及文本描述在内的结构化信息，并通过人工校验确保标注准确性，最终形成涵盖多元交互场景的高质量语料库。

特点

该数据集显著体现多模态特性，同步整合视觉布局与语义上下文信息，其控件标注粒度精细至可操作属性层级。涵盖从简单按钮到复杂动态组件的多样化界面元素，且保持跨平台一致性，为研究界面理解与自动化操作任务提供高度仿真的数据基础。时空维度上的交互轨迹记录进一步丰富了行为分析的可能性。

使用方法

研究者可借助该数据集训练界面元素检测与分类模型，或开发端到端的任务自动化系统。典型流程包括解析JSON格式的结构化标注数据，提取控件特征向量后结合视觉编码器进行多模态融合。验证阶段需注意按官方划分的训练测试集评估模型泛化性能，避免数据泄漏问题。

背景与挑战

背景概述

GUI_Full数据集诞生于2023年，由清华大学和微软亚洲研究院联合构建，专注于图形用户界面（GUI）的自动化理解与生成任务。该数据集旨在推动人机交互领域的发展，通过提供丰富的GUI元素标注和结构信息，支持界面设计自动化、无障碍访问技术及智能辅助工具的开发。其多模态特性融合了视觉与文本信息，为研究者探索GUI的语义理解和功能预测提供了重要基础，对提升自动化测试和用户体验设计具有深远影响。

当前挑战

GUI_Full数据集致力于解决GUI自动化理解中的元素识别、布局分析和功能推理等核心问题，其挑战包括GUI元素的多样性和动态性导致的识别难度，以及跨平台和跨分辨率适配的复杂性。在构建过程中，数据收集需处理大量异构界面样本，标注工作涉及精细的元素分类和关系标注，需克服标注一致性和规模化的难题，同时保证数据质量与隐私合规性。

常用场景

经典使用场景

在图形用户界面自动化研究领域，gui_full数据集被广泛用于训练和评估智能体对复杂界面结构的理解能力。该数据集通过提供丰富的界面元素和交互序列，支持研究者开发能够自主导航并操作各类应用程序的算法模型，尤其在多步骤任务完成和动态环境适应方面展现出重要价值。

解决学术问题

该数据集有效解决了人机交互研究中界面元素识别、操作逻辑推理及跨平台泛化等核心问题。通过提供标准化的界面状态表示和动作空间定义，它为构建可解释且鲁棒的交互代理奠定了数据基础，显著推动了自动化界面操作理论与应用边界的发展。

衍生相关工作

基于gui_full数据集，研究者提出了多种界面编码网络与层次化决策模型，例如结合视觉-语言特征的跨模态界面理解框架，以及基于强化学习的端到端操作代理。这些工作不仅扩展了界面自动化的技术路线，还催生了面向移动端与Web端的新型基准测试体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集