HongxinLi/AutoGUI-v1|视觉语言模型数据集|GUI代理数据集
收藏AutoGUI 数据集概述
数据集简介
AutoGUI 数据集是为开发和评估能够执行用户界面(UI)理解任务的图形用户界面(GUI)代理而设计的。该数据集通过 AutoGUI 管道生成大规模的功能性注释,涵盖了丰富的 UI 元素。
数据结构
数据分割
- 训练集: 包含 625,000 个样本。
- 测试集: 为避免数据泄露,测试集已被压缩并存储在指定位置。
数据字段
每个样本包含以下字段:
- image: 任务的 UI 截图,图像分辨率各异。
- func: 任务中元素的功能性注释。
- instruction: 由功能性注释生成的用户指令。
- answer: 对指令的正确响应。对于定位任务,答案是归一化后的点坐标(范围为 [0, 99]);对于描述任务,答案是目标元素的功能性描述。
- unnormalized_box: 目标元素在图像坐标系中的边界框坐标([左, 上, 右, 下])。
- elem_text: 元素的显示文本或替代文本。
- elem_role: 元素的 HTML 标签。
- image_size: UI 图像的实际尺寸。图像渲染时采用超高分辨率,对于 device 字段为 web 的任务,图像尺寸应缩小 2 倍;对于 device 字段为 mobile 的任务,图像尺寸应缩小 3 倍。
- device: UI 截图的视口类型。
免责声明
该数据集仅用于研究目的,旨在通过基础模型的应用构建通用的 GUI 代理。任何商业用途均不被允许。
COVID-19 Data Hub
COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。
covid19datahub.io 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
CrowdHuman
CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录