alexandrainst/da-wit

Name: alexandrainst/da-wit
Creator: alexandrainst
Published: 2022-11-18 15:48:44
License: 暂无描述

Hugging Face2022-11-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/da-wit

下载链接

链接失效反馈

官方服务：

资源简介：

Danish WIT数据集是从WikiMedia的WIT-Base数据集中提取的丹麦语部分，包含大约160,000张图片及其丹麦语描述。该数据集主要用于图像生成、零样本图像分类和文本图像搜索等任务。数据集的创建目的是为了简化丹麦语部分的使用，原始数据集占用了333 GB的磁盘空间。数据集的结构包括图像、图像URL、嵌入向量、元数据URL等多个字段，并分为训练集、验证集和测试集。数据集遵循CC BY-SA 4.0许可证。

提供机构：

alexandrainst

原始信息汇总

数据集卡片 for Danish WIT

数据集描述

语言: 丹麦语 (da)
许可证: CC BY-SA 4.0
大小类别: 100K<n<1M
源数据集: wikimedia/wit_base
任务类别:
- 图像到文本
- 零样本图像分类
- 特征提取
任务ID: 图像描述

数据集概述

Google 在 2021 年 7 月发布了 Wikipedia Image Text (WIT) 数据集，该数据集包含从 Wikipedia 抓取的图像及其描述。WikiMedia 在 2021 年 9 月发布了 WIT-Base，这是 WIT 的一个修改版本，移除了没有“参考描述”的图像，以及人脸覆盖超过 10% 的图像和不适合的图像。本数据集是 WIT-Base 数据集的丹麦部分，包含大约 160,000 张带有相关丹麦描述的图像。数据集遵循 CC BY-SA 4.0 许可证。

支持的任务和排行榜

该数据集旨在用于训练机器学习模型进行图像描述生成、零样本图像分类和图文搜索。目前没有活跃的排行榜。

语言

数据集提供丹麦语 (da) 版本。

数据集结构

数据实例

下载的数据文件大小: 7.5 GB
生成的数据集大小: 7.8 GB
总磁盘使用量: 15.3 GB

一个来自 train 分割的示例如下： json { "image": [PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=300x409 at 0x7FE4384E2190], "image_url": "https://upload.wikimedia.org/wikipedia/commons/4/45/Bispen_-inside.jpg", "embedding": [2.8568285, 2.9562542, 0.33794892, 8.753725, ...], "metadata_url": "http://commons.wikimedia.org/wiki/File:Bispen-_inside.jpg", "original_height": 3161, "original_width": 2316, "mime_type": "image/jpeg", "caption_attribution_description": "Kulturhuset Bispen set indefra. Biblioteket er til venstre", "page_url": "https://da.wikipedia.org/wiki/Bispen", "attribution_passes_lang_id": True, "caption_alt_text_description": None, "caption_reference_description": "Bispen set indefra fra 1. sal, hvor ....", "caption_title_and_reference_description": "Bispen [SEP] Bispen set indefra ...", "context_page_description": "Bispen er navnet på det offentlige kulturhus i ...", "context_section_description": "Bispen er navnet på det offentlige kulturhus i ...", "hierarchical_section_title": "Bispen", "is_main_image": True, "page_changed_recently": True, "page_title": "Bispen", "section_title": None }