five

Zexanima/website_screenshots_image_dataset

收藏
Hugging Face2023-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Zexanima/website_screenshots_image_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个关于网站截图的数据集,主要用于对象检测任务。数据集包含了来自全球1000多个顶级网站的截图,并且包含了丰富的注释信息,如按钮、标题、链接、标签、文本、图像和iframe等。数据集分为训练集、验证集和测试集,分别包含1688、482和242个样本。数据集的下载大小为201411511字节,总大小为228064909.08字节。

该数据集是一个关于网站截图的数据集,主要用于对象检测任务。数据集包含了来自全球1000多个顶级网站的截图,并且包含了丰富的注释信息,如按钮、标题、链接、标签、文本、图像和iframe等。数据集分为训练集、验证集和测试集,分别包含1688、482和242个样本。数据集的下载大小为201411511字节,总大小为228064909.08字节。
提供机构:
Zexanima
原始信息汇总

网站截图图像数据集

数据集详情

数据集描述

  • 语言(s) (NLP): [English]
  • 许可证: [MIT]

数据集特征

  • image_id: 数据类型为 int64
  • image: 数据类型为 image
  • width: 数据类型为 int64
  • height: 数据类型为 int64
  • url: 数据类型为 null
  • date_captured: 数据类型为 string
  • objects: 包含以下子特征
    • area: 数据类型为 int64
    • bbox: 数据类型为 sequence of int64
    • category_id: 数据类型为 int64
    • id: 数据类型为 int64
    • image_id: 数据类型为 int64
    • iscrowd: 数据类型为 int64
    • segmentation: 数据类型为 sequence of null

数据集分割

  • test: 字节数为 22424625,样本数为 242
  • train: 字节数为 159535409.08,样本数为 1688
  • valid: 字节数为 46104875,样本数为 482

数据集大小

  • 下载大小: 201411511
  • 数据集大小: 228064909.08

配置

  • config_name: default
    • data_files:
      • split: test 路径为 data/test-*
      • split: train 路径为 data/train-*
      • split: valid 路径为 data/valid-*

任务类别

  • object-detection

标签映射

label2id

python label2id = { button: 1, elements: 0, field: 2, heading: 3, iframe: 4, image: 5, label: 6, link: 7, text: 8 }

id2label

python id2label = { 0: elements, 1: button, 2: field, 3: heading, 4: iframe, 5: image, 6: label, 7: link, 8: text }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作