HongxinLi/AutoGUI-v1|视觉语言模型数据集|GUI代理数据集

hugging_face2024-07-02 更新2024-06-29 收录

视觉语言模型

GUI代理

下载链接：

https://hf-mirror.com/datasets/HongxinLi/AutoGUI-v1

下载链接

链接失效反馈

资源简介：

AutoGUI数据集用于开发和评估能够执行UI理解任务的GUI代理。该数据集通过AutoGUI管道生成，包含大量UI元素的功能注释。数据集包含625k个训练样本，测试集为避免数据泄露被压缩存储。每个样本包含图像、功能注释、用户指令、答案、未归一化的边界框坐标、元素文本、元素角色、图像大小和设备类型等信息。

The AutoGUI dataset is curated for developing and evaluating GUI agents that can conduct UI understanding tasks. This dataset is collected through the AutoGUI pipeline that generates functionality annotations at scale for abundant UI elements. The dataset contains 625k training samples, and the test split is compressed and stored to avoid data leakage. Each sample includes an image, functionality annotation, user instruction, answer, unnormalized bounding box coordinates, element text, element role, image size, and device type.

提供机构：

HongxinLi

原始信息汇总

AutoGUI 数据集概述

数据集简介

AutoGUI 数据集是为开发和评估能够执行用户界面（UI）理解任务的图形用户界面（GUI）代理而设计的。该数据集通过 AutoGUI 管道生成大规模的功能性注释，涵盖了丰富的 UI 元素。

数据结构

数据分割

训练集: 包含 625,000 个样本。
测试集: 为避免数据泄露，测试集已被压缩并存储在指定位置。

数据字段

每个样本包含以下字段：

image: 任务的 UI 截图，图像分辨率各异。
func: 任务中元素的功能性注释。
instruction: 由功能性注释生成的用户指令。
answer: 对指令的正确响应。对于定位任务，答案是归一化后的点坐标（范围为 [0, 99]）；对于描述任务，答案是目标元素的功能性描述。
unnormalized_box: 目标元素在图像坐标系中的边界框坐标（[左, 上, 右, 下]）。
elem_text: 元素的显示文本或替代文本。
elem_role: 元素的 HTML 标签。
image_size: UI 图像的实际尺寸。图像渲染时采用超高分辨率，对于 device 字段为 web 的任务，图像尺寸应缩小 2 倍；对于 device 字段为 mobile 的任务，图像尺寸应缩小 3 倍。
device: UI 截图的视口类型。

免责声明

该数据集仅用于研究目的，旨在通过基础模型的应用构建通用的 GUI 代理。任何商业用途均不被允许。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集，包含了来自多个国家和地区的疫情数据，涵盖了病例数、死亡数、康复数、测试数等信息。此外，数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性，包含训练、验证和测试集，共计47万个标注的人体实例，平均每张图像有23个人，包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录