severo/danish-wit
收藏Hugging Face2022-11-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/severo/danish-wit
下载链接
链接失效反馈官方服务:
资源简介:
Danish WIT数据集是从WikiMedia的WIT-Base数据集中提取的丹麦语部分,包含大约160,000张图片及其丹麦语描述。该数据集主要用于训练机器学习模型进行图像描述生成、零样本图像分类和文本图像搜索等任务。数据集的创建是为了方便处理WIT-Base数据集中丹麦语部分的内容。数据集的结构包括多个字段,如图片、图片URL、嵌入向量、元数据URL等,并分为训练集、验证集和测试集。数据集遵循CC BY-SA 4.0许可证。
提供机构:
severo
原始信息汇总
数据集卡片:Danish WIT
数据集描述
- 语言: 丹麦语 (
da) - 许可证: CC BY-SA 4.0
- 数据集大小: 100K<n<1M
- 来源数据集: wikimedia/wit_base
- 任务类别:
- 图像到文本
- 零样本图像分类
- 特征提取
- 任务ID: 图像描述生成
数据集摘要
Danish WIT 数据集是 WIT-Base 数据集的丹麦部分,包含约 160,000 张带有丹麦描述的图像。该数据集遵循 CC BY-SA 4.0 许可证。
支持的任务和排行榜
该数据集旨在用于训练机器学习模型进行图像描述生成、零样本图像分类和文本图像搜索。目前没有活跃的排行榜。
语言
数据集仅提供丹麦语 (da)。
数据集结构
数据实例
数据集包含以下字段:
image: 图像字节image_url: 图像URLembedding: 嵌入向量metadata_url: 元数据URLoriginal_height: 原始高度original_width: 原始宽度mime_type: MIME类型caption_attribution_description: 描述归属page_url: 页面URLattribution_passes_lang_id: 归属通过语言IDcaption_alt_text_description: 替代文本描述caption_reference_description: 参考描述caption_title_and_reference_description: 标题和参考描述context_page_description: 页面上下文描述context_section_description: 部分上下文描述hierarchical_section_title: 层次部分标题is_main_image: 是否为主图像page_changed_recently: 页面最近是否更改page_title: 页面标题section_title: 部分标题
数据分割
数据集分为训练集、验证集和测试集,具体如下:
| 分割 | 样本数量 |
|---|---|
| train | 167,460 |
| val | 256 |
| test | 1,024 |
数据集创建
策划理由
提取 WIT-Base 数据集的丹麦部分较为繁琐,因此创建 Danish WIT 数据集以简化丹麦部分的使用。
源数据
数据集源自 WikiMedia 的 WIT-Base 数据集,而 WIT-Base 数据集又源自 Google 的 WIT 数据集。
附加信息
数据集策展人
数据集由 Dan Saattrup Nielsen 从 The Alexandra Institute 策展。
许可证信息
数据集遵循 CC BY-SA 4.0 许可证。



