Zexanima/website_screenshots_image_dataset

Name: Zexanima/website_screenshots_image_dataset
Creator: Zexanima
Published: 2023-12-31 21:39:29
License: 暂无描述

Hugging Face2023-12-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Zexanima/website_screenshots_image_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于网站截图的数据集，主要用于对象检测任务。数据集包含了来自全球1000多个顶级网站的截图，并且包含了丰富的注释信息，如按钮、标题、链接、标签、文本、图像和iframe等。数据集分为训练集、验证集和测试集，分别包含1688、482和242个样本。数据集的下载大小为201411511字节，总大小为228064909.08字节。

提供机构：

Zexanima

原始信息汇总

网站截图图像数据集

数据集详情

数据集描述

语言(s) (NLP): [English]
许可证: [MIT]

数据集特征

image_id: 数据类型为 int64
image: 数据类型为 image
width: 数据类型为 int64
height: 数据类型为 int64
url: 数据类型为 null
date_captured: 数据类型为 string
objects: 包含以下子特征
- area: 数据类型为 int64
- bbox: 数据类型为 sequence of int64
- category_id: 数据类型为 int64
- id: 数据类型为 int64
- image_id: 数据类型为 int64
- iscrowd: 数据类型为 int64
- segmentation: 数据类型为 sequence of null

数据集分割

test: 字节数为 22424625，样本数为 242
train: 字节数为 159535409.08，样本数为 1688
valid: 字节数为 46104875，样本数为 482

数据集大小

下载大小: 201411511
数据集大小: 228064909.08

配置

config_name: default
- data_files:
  - split: test 路径为 data/test-*
  - split: train 路径为 data/train-*
  - split: valid 路径为 data/valid-*

任务类别

object-detection

标签映射

label2id

python label2id = { button: 1, elements: 0, field: 2, heading: 3, iframe: 4, image: 5, label: 6, link: 7, text: 8 }

id2label

python id2label = { 0: elements, 1: button, 2: field, 3: heading, 4: iframe, 5: image, 6: label, 7: link, 8: text }

5,000+

优质数据集

54 个

任务类型

进入经典数据集