five

severo/danish-wit

收藏
Hugging Face2022-11-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/severo/danish-wit
下载链接
链接失效反馈
官方服务:
资源简介:
Danish WIT数据集是从WikiMedia的WIT-Base数据集中提取的丹麦语部分,包含大约160,000张图片及其丹麦语描述。该数据集主要用于训练机器学习模型进行图像描述生成、零样本图像分类和文本图像搜索等任务。数据集的创建是为了方便处理WIT-Base数据集中丹麦语部分的内容。数据集的结构包括多个字段,如图片、图片URL、嵌入向量、元数据URL等,并分为训练集、验证集和测试集。数据集遵循CC BY-SA 4.0许可证。
提供机构:
severo
原始信息汇总

数据集卡片:Danish WIT

数据集描述

  • 语言: 丹麦语 (da)
  • 许可证: CC BY-SA 4.0
  • 数据集大小: 100K<n<1M
  • 来源数据集: wikimedia/wit_base
  • 任务类别:
    • 图像到文本
    • 零样本图像分类
    • 特征提取
  • 任务ID: 图像描述生成

数据集摘要

Danish WIT 数据集是 WIT-Base 数据集的丹麦部分,包含约 160,000 张带有丹麦描述的图像。该数据集遵循 CC BY-SA 4.0 许可证。

支持的任务和排行榜

该数据集旨在用于训练机器学习模型进行图像描述生成、零样本图像分类和文本图像搜索。目前没有活跃的排行榜。

语言

数据集仅提供丹麦语 (da)。

数据集结构

数据实例

数据集包含以下字段:

  • image: 图像字节
  • image_url: 图像URL
  • embedding: 嵌入向量
  • metadata_url: 元数据URL
  • original_height: 原始高度
  • original_width: 原始宽度
  • mime_type: MIME类型
  • caption_attribution_description: 描述归属
  • page_url: 页面URL
  • attribution_passes_lang_id: 归属通过语言ID
  • caption_alt_text_description: 替代文本描述
  • caption_reference_description: 参考描述
  • caption_title_and_reference_description: 标题和参考描述
  • context_page_description: 页面上下文描述
  • context_section_description: 部分上下文描述
  • hierarchical_section_title: 层次部分标题
  • is_main_image: 是否为主图像
  • page_changed_recently: 页面最近是否更改
  • page_title: 页面标题
  • section_title: 部分标题

数据分割

数据集分为训练集、验证集和测试集,具体如下:

分割 样本数量
train 167,460
val 256
test 1,024

数据集创建

策划理由

提取 WIT-Base 数据集的丹麦部分较为繁琐,因此创建 Danish WIT 数据集以简化丹麦部分的使用。

源数据

数据集源自 WikiMedia 的 WIT-Base 数据集,而 WIT-Base 数据集又源自 Google 的 WIT 数据集。

附加信息

数据集策展人

数据集由 Dan Saattrup NielsenThe Alexandra Institute 策展。

许可证信息

数据集遵循 CC BY-SA 4.0 许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作