five

alexandrainst/da-wit

收藏
Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/da-wit
下载链接
链接失效反馈
官方服务:
资源简介:
Danish WIT数据集是从WikiMedia的WIT-Base数据集中提取的丹麦语部分,包含大约160,000张图片及其丹麦语描述。该数据集主要用于图像生成、零样本图像分类和文本图像搜索等任务。数据集的创建目的是为了简化丹麦语部分的使用,原始数据集占用了333 GB的磁盘空间。数据集的结构包括图像、图像URL、嵌入向量、元数据URL等多个字段,并分为训练集、验证集和测试集。数据集遵循CC BY-SA 4.0许可证。
提供机构:
alexandrainst
原始信息汇总

数据集卡片 for Danish WIT

数据集描述

  • 语言: 丹麦语 (da)
  • 许可证: CC BY-SA 4.0
  • 大小类别: 100K<n<1M
  • 源数据集: wikimedia/wit_base
  • 任务类别:
    • 图像到文本
    • 零样本图像分类
    • 特征提取
  • 任务ID: 图像描述

数据集概述

Google 在 2021 年 7 月发布了 Wikipedia Image Text (WIT) 数据集,该数据集包含从 Wikipedia 抓取的图像及其描述。WikiMedia 在 2021 年 9 月发布了 WIT-Base,这是 WIT 的一个修改版本,移除了没有“参考描述”的图像,以及人脸覆盖超过 10% 的图像和不适合的图像。本数据集是 WIT-Base 数据集的丹麦部分,包含大约 160,000 张带有相关丹麦描述的图像。数据集遵循 CC BY-SA 4.0 许可证。

支持的任务和排行榜

该数据集旨在用于训练机器学习模型进行图像描述生成、零样本图像分类和图文搜索。目前没有活跃的排行榜。

语言

数据集提供丹麦语 (da) 版本。

数据集结构

数据实例

  • 下载的数据文件大小: 7.5 GB
  • 生成的数据集大小: 7.8 GB
  • 总磁盘使用量: 15.3 GB

一个来自 train 分割的示例如下: json { "image": [PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=300x409 at 0x7FE4384E2190], "image_url": "https://upload.wikimedia.org/wikipedia/commons/4/45/Bispen_-inside.jpg", "embedding": [2.8568285, 2.9562542, 0.33794892, 8.753725, ...], "metadata_url": "http://commons.wikimedia.org/wiki/File:Bispen-_inside.jpg", "original_height": 3161, "original_width": 2316, "mime_type": "image/jpeg", "caption_attribution_description": "Kulturhuset Bispen set indefra. Biblioteket er til venstre", "page_url": "https://da.wikipedia.org/wiki/Bispen", "attribution_passes_lang_id": True, "caption_alt_text_description": None, "caption_reference_description": "Bispen set indefra fra 1. sal, hvor ....", "caption_title_and_reference_description": "Bispen [SEP] Bispen set indefra ...", "context_page_description": "Bispen er navnet på det offentlige kulturhus i ...", "context_section_description": "Bispen er navnet på det offentlige kulturhus i ...", "hierarchical_section_title": "Bispen", "is_main_image": True, "page_changed_recently": True, "page_title": "Bispen", "section_title": None }

数据字段

所有分割的数据字段相同:

  • image: 图像特征。
  • image_url: 字符串特征。
  • embedding: 列表特征。
  • metadata_url: 字符串特征。
  • original_height: 整数或 NaN 特征。
  • original_width: 整数或 NaN 特征。
  • mime_type: 字符串或 None 特征。
  • caption_attribution_description: 字符串或 None 特征。
  • page_url: 字符串特征。
  • attribution_passes_lang_id: 布尔或 None 特征。
  • caption_alt_text_description: 字符串或 None 特征。
  • caption_reference_description: 字符串或 None 特征。
  • caption_title_and_reference_description: 字符串或 None 特征。
  • context_page_description: 字符串或 None 特征。
  • context_section_description: 字符串或 None 特征。
  • hierarchical_section_title: 字符串特征。
  • is_main_image: 布尔或 None 特征。
  • page_changed_recently: 布尔或 None 特征。
  • page_title: 字符串特征。
  • section_title: 字符串或 None 特征。

数据分割

大约 2.60% 的 WIT-Base 数据集来自丹麦 Wikipedia。我们将 168,740 个样本分成以下大小的训练集、验证集和测试集:

分割 样本数
train 167,460
val 256
test 1,024

数据集创建

策划理由

提取 WIT-Base 数据集的丹麦部分相当繁琐,特别是当数据集占用 333 GB 磁盘空间时,因此策划丹麦-WIT 纯粹是为了更容易处理丹麦部分。

源数据

原始数据来自 WikiMedia 的 WIT-Base 数据集,该数据集又来自 Google 的 WIT 数据集。

附加信息

数据集策展人

Dan Saattrup Nielsen 来自 The Alexandra Institute 策划了此数据集。

许可信息

数据集遵循 CC BY-SA 4.0 许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作