Zexanima/website_screenshots_image_dataset
收藏Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zexanima/website_screenshots_image_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个关于网站截图的数据集,主要用于对象检测任务。数据集包含了来自全球1000多个顶级网站的截图,并且包含了丰富的注释信息,如按钮、标题、链接、标签、文本、图像和iframe等。数据集分为训练集、验证集和测试集,分别包含1688、482和242个样本。数据集的下载大小为201411511字节,总大小为228064909.08字节。
该数据集是一个关于网站截图的数据集,主要用于对象检测任务。数据集包含了来自全球1000多个顶级网站的截图,并且包含了丰富的注释信息,如按钮、标题、链接、标签、文本、图像和iframe等。数据集分为训练集、验证集和测试集,分别包含1688、482和242个样本。数据集的下载大小为201411511字节,总大小为228064909.08字节。
提供机构:
Zexanima
原始信息汇总
网站截图图像数据集
数据集详情
数据集描述
- 语言(s) (NLP): [English]
- 许可证: [MIT]
数据集特征
- image_id: 数据类型为 int64
- image: 数据类型为 image
- width: 数据类型为 int64
- height: 数据类型为 int64
- url: 数据类型为 null
- date_captured: 数据类型为 string
- objects: 包含以下子特征
- area: 数据类型为 int64
- bbox: 数据类型为 sequence of int64
- category_id: 数据类型为 int64
- id: 数据类型为 int64
- image_id: 数据类型为 int64
- iscrowd: 数据类型为 int64
- segmentation: 数据类型为 sequence of null
数据集分割
- test: 字节数为 22424625,样本数为 242
- train: 字节数为 159535409.08,样本数为 1688
- valid: 字节数为 46104875,样本数为 482
数据集大小
- 下载大小: 201411511
- 数据集大小: 228064909.08
配置
- config_name: default
- data_files:
- split: test 路径为 data/test-*
- split: train 路径为 data/train-*
- split: valid 路径为 data/valid-*
- data_files:
任务类别
- object-detection
标签映射
label2id
python label2id = { button: 1, elements: 0, field: 2, heading: 3, iframe: 4, image: 5, label: 6, link: 7, text: 8 }
id2label
python id2label = { 0: elements, 1: button, 2: field, 3: heading, 4: iframe, 5: image, 6: label, 7: link, 8: text }



