alexandrainst/da-wit
收藏数据集卡片 for Danish WIT
数据集描述
- 语言: 丹麦语 (
da) - 许可证: CC BY-SA 4.0
- 大小类别: 100K<n<1M
- 源数据集: wikimedia/wit_base
- 任务类别:
- 图像到文本
- 零样本图像分类
- 特征提取
- 任务ID: 图像描述
数据集概述
Google 在 2021 年 7 月发布了 Wikipedia Image Text (WIT) 数据集,该数据集包含从 Wikipedia 抓取的图像及其描述。WikiMedia 在 2021 年 9 月发布了 WIT-Base,这是 WIT 的一个修改版本,移除了没有“参考描述”的图像,以及人脸覆盖超过 10% 的图像和不适合的图像。本数据集是 WIT-Base 数据集的丹麦部分,包含大约 160,000 张带有相关丹麦描述的图像。数据集遵循 CC BY-SA 4.0 许可证。
支持的任务和排行榜
该数据集旨在用于训练机器学习模型进行图像描述生成、零样本图像分类和图文搜索。目前没有活跃的排行榜。
语言
数据集提供丹麦语 (da) 版本。
数据集结构
数据实例
- 下载的数据文件大小: 7.5 GB
- 生成的数据集大小: 7.8 GB
- 总磁盘使用量: 15.3 GB
一个来自 train 分割的示例如下:
json
{
"image": [PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=300x409 at 0x7FE4384E2190],
"image_url": "https://upload.wikimedia.org/wikipedia/commons/4/45/Bispen_-inside.jpg",
"embedding": [2.8568285, 2.9562542, 0.33794892, 8.753725, ...],
"metadata_url": "http://commons.wikimedia.org/wiki/File:Bispen-_inside.jpg",
"original_height": 3161,
"original_width": 2316,
"mime_type": "image/jpeg",
"caption_attribution_description": "Kulturhuset Bispen set indefra. Biblioteket er til venstre",
"page_url": "https://da.wikipedia.org/wiki/Bispen",
"attribution_passes_lang_id": True,
"caption_alt_text_description": None,
"caption_reference_description": "Bispen set indefra fra 1. sal, hvor ....",
"caption_title_and_reference_description": "Bispen [SEP] Bispen set indefra ...",
"context_page_description": "Bispen er navnet på det offentlige kulturhus i ...",
"context_section_description": "Bispen er navnet på det offentlige kulturhus i ...",
"hierarchical_section_title": "Bispen",
"is_main_image": True,
"page_changed_recently": True,
"page_title": "Bispen",
"section_title": None
}
数据字段
所有分割的数据字段相同:
image: 图像特征。image_url: 字符串特征。embedding: 列表特征。metadata_url: 字符串特征。original_height: 整数或 NaN 特征。original_width: 整数或 NaN 特征。mime_type: 字符串或 None 特征。caption_attribution_description: 字符串或 None 特征。page_url: 字符串特征。attribution_passes_lang_id: 布尔或 None 特征。caption_alt_text_description: 字符串或 None 特征。caption_reference_description: 字符串或 None 特征。caption_title_and_reference_description: 字符串或 None 特征。context_page_description: 字符串或 None 特征。context_section_description: 字符串或 None 特征。hierarchical_section_title: 字符串特征。is_main_image: 布尔或 None 特征。page_changed_recently: 布尔或 None 特征。page_title: 字符串特征。section_title: 字符串或 None 特征。
数据分割
大约 2.60% 的 WIT-Base 数据集来自丹麦 Wikipedia。我们将 168,740 个样本分成以下大小的训练集、验证集和测试集:
| 分割 | 样本数 |
|---|---|
| train | 167,460 |
| val | 256 |
| test | 1,024 |
数据集创建
策划理由
提取 WIT-Base 数据集的丹麦部分相当繁琐,特别是当数据集占用 333 GB 磁盘空间时,因此策划丹麦-WIT 纯粹是为了更容易处理丹麦部分。
源数据
原始数据来自 WikiMedia 的 WIT-Base 数据集,该数据集又来自 Google 的 WIT 数据集。
附加信息
数据集策展人
Dan Saattrup Nielsen 来自 The Alexandra Institute 策划了此数据集。
许可信息
数据集遵循 CC BY-SA 4.0 许可证。



