five

alexandrainst/nordjylland-news-image-captioning

收藏
Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/nordjylland-news-image-captioning
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是来自丹麦报纸TV2 Nord的图像-标题对的集合,主要用于图像标题生成任务。数据集包含11,707个样本,总大小为11 GB,语言为丹麦语(da)。图像的分辨率各不相同,标题长度也有分布。数据集的创建是为了填补丹麦语大规模图像标题数据集的空白,数据通过TV2 Nord API收集。数据集由Oliver Kinch从The Alexandra Institute整理,采用CC0许可证。
提供机构:
alexandrainst
原始信息汇总

数据集卡片 "nordjylland-news-image-captioning"

数据集描述

数据集摘要

该数据集是从丹麦报纸TV2 Nord收集的图像-标题对集合。

支持的任务和排行榜

图像描述是该数据集的预期任务。目前没有活跃的排行榜。

语言

该数据集提供丹麦语(da)版本。

数据集结构

数据字段

  • file_name: 一个string字段,表示图像的文件名。
  • caption: 一个string字段,表示图像的描述。

数据集统计

样本数量

11707

图像尺寸

数据集中的所有图像均为RGB格式,但分辨率各不相同:

  • 宽度范围从73到11,830像素。
  • 高度范围从38到8,268像素。

图像的边长(假设为正方形图像)大约为:

( x = ext{int}({{sqrt{h cdot w}})} )

潜在的数据集问题

  • 有14张图像的标题为"Arkivfoto"。
  • 有37张图像的标题仅为来源参考,如"Kilde: <来源名称>"。

在模型训练过程中可能需要考虑排除这些样本。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作