alexandrainst/nordjylland-news-image-captioning
收藏Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/nordjylland-news-image-captioning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是来自丹麦报纸TV2 Nord的图像-标题对的集合,主要用于图像标题生成任务。数据集包含11,707个样本,总大小为11 GB,语言为丹麦语(da)。图像的分辨率各不相同,标题长度也有分布。数据集的创建是为了填补丹麦语大规模图像标题数据集的空白,数据通过TV2 Nord API收集。数据集由Oliver Kinch从The Alexandra Institute整理,采用CC0许可证。
提供机构:
alexandrainst
原始信息汇总
数据集卡片 "nordjylland-news-image-captioning"
数据集描述
数据集摘要
该数据集是从丹麦报纸TV2 Nord收集的图像-标题对集合。
支持的任务和排行榜
图像描述是该数据集的预期任务。目前没有活跃的排行榜。
语言
该数据集提供丹麦语(da)版本。
数据集结构
数据字段
file_name: 一个string字段,表示图像的文件名。caption: 一个string字段,表示图像的描述。
数据集统计
样本数量
11707
图像尺寸
数据集中的所有图像均为RGB格式,但分辨率各不相同:
- 宽度范围从73到11,830像素。
- 高度范围从38到8,268像素。
图像的边长(假设为正方形图像)大约为:
( x = ext{int}({{sqrt{h cdot w}})} )
潜在的数据集问题
- 有14张图像的标题为"Arkivfoto"。
- 有37张图像的标题仅为来源参考,如"Kilde: <来源名称>"。
在模型训练过程中可能需要考虑排除这些样本。



