NatLibFi/Finna-JOKA-images

Name: NatLibFi/Finna-JOKA-images
Creator: NatLibFi
Published: 2024-05-02 14:47:03
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/NatLibFi/Finna-JOKA-images

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含4595张旧照片（截至1940年）的图像数据集，这些照片来自Journalistic Picture Archive JOKA的收藏，通过Finna.fi发现服务获取。图像旨在用于不同的AI/ML任务，如生成标题或着色。图像本身是JPEG格式，存储在`images`目录下。`metadata.jsonl`文件包含每张图像的元数据，例如描述性标题（主要是芬兰语）、主题关键词、位置和摄影师姓名。文件采用JSON Lines格式（每行是一个JSON记录）。`file_name`列包含JPEG图像文件的相对路径。Python脚本`collect-joka.py`最初用于从Finna API检索元数据和图像。这些图像由芬兰遗产机构在Finna上发布，使用Creative Commons Attribution 4.0许可证。

提供机构：

NatLibFi

原始信息汇总

数据集概述

数据集名称

Old photographs from Journalistic Picture Archive JOKA

数据集内容

图像数量: 4595张
图像类型: 老照片（截至1940年）
文件格式: JPEG
存储位置: images目录下

数据集用途

用于AI/ML任务，如生成标题或彩色化图像

元数据信息

文件: metadata.jsonl
格式: JSON Lines（每行一个JSON记录）
包含信息: 描述性标题（主要为芬兰语）、主题关键词、位置、摄影师名称
file_name字段: 包含JPEG图像文件的相对路径

许可信息

许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
使用要求: 必须引用作者和/或摄影师的名称、收藏和组织的名称。使用时需尊重版权和隐私保护，确保数据的正确性。未经许可，禁止在营销和广告中使用肖像。用户需负责获取涉及人物、作品和商标的许可。用户需根据使用目的负责数据处理。

数据集标签

新闻学
摄影
历史
博物馆

任务类别

图像到文本
图像到图像

语言

芬兰语

数据集大小

1K<n<10K

搜集汇总

数据集介绍

构建方式

NatLibFi/Finna-JOKA-images数据集通过Finna.fi发现服务，从Journalistic Picture Archive JOKA的收藏中精选了4595张1940年以前的老照片。这些照片以JPEG格式存储，并附有详细的元数据，包括描述性标题、主题关键词、拍摄地点和摄影师姓名等，所有数据均以JSON Lines格式记录。此外，使用Python脚本`collect-joka.py`从Finna API中检索了这些元数据和图像。

使用方法

NatLibFi/Finna-JOKA-images数据集适用于多种AI/ML任务，如图像到文本的生成和图像着色等。用户可以通过`metadata.jsonl`文件中的`file_name`列定位到具体的JPEG图像文件，并利用附带的元数据进行进一步的分析或模型训练。使用此数据集时，用户需遵循Creative Commons Attribution 4.0许可的要求，包括适当的引用和遵守版权及隐私保护规定。此外，数据集的使用者应确保数据的正确性，并在必要时联系芬兰遗产机构获取更高质量的文件。

背景与挑战

背景概述

NatLibFi/Finna-JOKA-images数据集由芬兰文化遗产机构于近年发布，收录了来自新闻图片档案馆JOKA的4595张1940年以前的老照片。这些照片通过Finna.fi发现服务获取，旨在支持多种人工智能和机器学习任务，如图像描述生成和图像着色。该数据集的创建不仅为历史研究提供了宝贵的视觉资料，也为计算机视觉领域的研究者提供了丰富的研究素材。数据集中的每张照片均附有详细的元数据，包括描述性标题、主题关键词、拍摄地点和摄影师姓名，这些信息以JSON Lines格式存储，便于进一步的分析和应用。

当前挑战

NatLibFi/Finna-JOKA-images数据集在应用过程中面临多重挑战。首先，图像描述生成任务需要处理芬兰语的文本数据，这对非芬兰语背景的研究者构成了语言障碍。其次，由于照片年代久远，图像质量参差不齐，这为图像着色和修复任务带来了技术上的困难。此外，数据集构建过程中，从Finna API获取元数据和图像时，需确保数据的完整性和准确性，这对数据收集和处理流程提出了较高要求。最后，数据集的使用需严格遵守版权和隐私保护规定，这在一定程度上限制了数据的广泛应用。

常用场景

经典使用场景

NatLibFi/Finna-JOKA-images数据集广泛应用于图像到文本和图像到图像的机器学习任务中。该数据集包含4595张1940年以前的新闻摄影图片，这些图片不仅为研究者提供了丰富的历史视觉资料，还支持自动生成图片描述和图像着色等高级图像处理技术的开发。

解决学术问题

该数据集解决了历史图像数字化和自动化处理中的关键问题，如历史图像的自动标注和色彩恢复。通过提供详细的元数据，包括描述性标题、主题关键词和摄影师信息，研究者可以更深入地理解图像内容，推动图像识别和自然语言处理技术的进步。

实际应用

在实际应用中，NatLibFi/Finna-JOKA-images数据集被用于文化遗产的数字化保存和展示。博物馆和历史研究机构利用这些图像进行展览设计、历史教育和公众互动，增强了公众对历史事件和文化遗产的认识和兴趣。

数据集最近研究