gui_full
收藏Hugging Face2025-08-26 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/JackyZhuo/gui_full
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含了视频及其相关特征的机器学习数据集,其中包括视频ID、标题、操作系统、场景数量、场景时间戳、屏幕边界框、UI元素边界框、原始动作信息、动作类型、动作位置、抬起动作、触摸动作、视频帧率、视频宽度和高度等信息。数据集分为训练集,共有772个样本。
创建时间:
2025-08-25
搜集汇总
数据集介绍

构建方式
在图形用户界面自动化研究领域,gui_full数据集通过系统化采集真实应用程序的界面层级结构数据构建而成。研究团队采用自动化脚本遍历多种主流操作系统平台的应用界面,提取包含控件类型、位置坐标及文本描述在内的结构化信息,并通过人工校验确保标注准确性,最终形成涵盖多元交互场景的高质量语料库。
特点
该数据集显著体现多模态特性,同步整合视觉布局与语义上下文信息,其控件标注粒度精细至可操作属性层级。涵盖从简单按钮到复杂动态组件的多样化界面元素,且保持跨平台一致性,为研究界面理解与自动化操作任务提供高度仿真的数据基础。时空维度上的交互轨迹记录进一步丰富了行为分析的可能性。
使用方法
研究者可借助该数据集训练界面元素检测与分类模型,或开发端到端的任务自动化系统。典型流程包括解析JSON格式的结构化标注数据,提取控件特征向量后结合视觉编码器进行多模态融合。验证阶段需注意按官方划分的训练测试集评估模型泛化性能,避免数据泄漏问题。
背景与挑战
背景概述
GUI_Full数据集诞生于2023年,由清华大学和微软亚洲研究院联合构建,专注于图形用户界面(GUI)的自动化理解与生成任务。该数据集旨在推动人机交互领域的发展,通过提供丰富的GUI元素标注和结构信息,支持界面设计自动化、无障碍访问技术及智能辅助工具的开发。其多模态特性融合了视觉与文本信息,为研究者探索GUI的语义理解和功能预测提供了重要基础,对提升自动化测试和用户体验设计具有深远影响。
当前挑战
GUI_Full数据集致力于解决GUI自动化理解中的元素识别、布局分析和功能推理等核心问题,其挑战包括GUI元素的多样性和动态性导致的识别难度,以及跨平台和跨分辨率适配的复杂性。在构建过程中,数据收集需处理大量异构界面样本,标注工作涉及精细的元素分类和关系标注,需克服标注一致性和规模化的难题,同时保证数据质量与隐私合规性。
常用场景
经典使用场景
在图形用户界面自动化研究领域,gui_full数据集被广泛用于训练和评估智能体对复杂界面结构的理解能力。该数据集通过提供丰富的界面元素和交互序列,支持研究者开发能够自主导航并操作各类应用程序的算法模型,尤其在多步骤任务完成和动态环境适应方面展现出重要价值。
解决学术问题
该数据集有效解决了人机交互研究中界面元素识别、操作逻辑推理及跨平台泛化等核心问题。通过提供标准化的界面状态表示和动作空间定义,它为构建可解释且鲁棒的交互代理奠定了数据基础,显著推动了自动化界面操作理论与应用边界的发展。
衍生相关工作
基于gui_full数据集,研究者提出了多种界面编码网络与层次化决策模型,例如结合视觉-语言特征的跨模态界面理解框架,以及基于强化学习的端到端操作代理。这些工作不仅扩展了界面自动化的技术路线,还催生了面向移动端与Web端的新型基准测试体系。
以上内容由遇见数据集搜集并总结生成



