NatLibFi/Finna-JOKA-images
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NatLibFi/Finna-JOKA-images
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含4595张旧照片(截至1940年)的图像数据集,这些照片来自Journalistic Picture Archive JOKA的收藏,通过Finna.fi发现服务获取。图像旨在用于不同的AI/ML任务,如生成标题或着色。图像本身是JPEG格式,存储在`images`目录下。`metadata.jsonl`文件包含每张图像的元数据,例如描述性标题(主要是芬兰语)、主题关键词、位置和摄影师姓名。文件采用JSON Lines格式(每行是一个JSON记录)。`file_name`列包含JPEG图像文件的相对路径。Python脚本`collect-joka.py`最初用于从Finna API检索元数据和图像。这些图像由芬兰遗产机构在Finna上发布,使用Creative Commons Attribution 4.0许可证。
这是一个包含4595张旧照片(截至1940年)的图像数据集,这些照片来自Journalistic Picture Archive JOKA的收藏,通过Finna.fi发现服务获取。图像旨在用于不同的AI/ML任务,如生成标题或着色。图像本身是JPEG格式,存储在`images`目录下。`metadata.jsonl`文件包含每张图像的元数据,例如描述性标题(主要是芬兰语)、主题关键词、位置和摄影师姓名。文件采用JSON Lines格式(每行是一个JSON记录)。`file_name`列包含JPEG图像文件的相对路径。Python脚本`collect-joka.py`最初用于从Finna API检索元数据和图像。这些图像由芬兰遗产机构在Finna上发布,使用Creative Commons Attribution 4.0许可证。
提供机构:
NatLibFi
原始信息汇总
数据集概述
数据集名称
Old photographs from Journalistic Picture Archive JOKA
数据集内容
- 图像数量: 4595张
- 图像类型: 老照片(截至1940年)
- 文件格式: JPEG
- 存储位置:
images目录下
数据集用途
- 用于AI/ML任务,如生成标题或彩色化图像
元数据信息
- 文件:
metadata.jsonl - 格式: JSON Lines(每行一个JSON记录)
- 包含信息: 描述性标题(主要为芬兰语)、主题关键词、位置、摄影师名称
file_name字段: 包含JPEG图像文件的相对路径
许可信息
- 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
- 使用要求: 必须引用作者和/或摄影师的名称、收藏和组织的名称。使用时需尊重版权和隐私保护,确保数据的正确性。未经许可,禁止在营销和广告中使用肖像。用户需负责获取涉及人物、作品和商标的许可。用户需根据使用目的负责数据处理。
数据集标签
- 新闻学
- 摄影
- 历史
- 博物馆
任务类别
- 图像到文本
- 图像到图像
语言
- 芬兰语
数据集大小
- 1K<n<10K
搜集汇总
数据集介绍

构建方式
NatLibFi/Finna-JOKA-images数据集通过Finna.fi发现服务,从Journalistic Picture Archive JOKA的收藏中精选了4595张1940年以前的老照片。这些照片以JPEG格式存储,并附有详细的元数据,包括描述性标题、主题关键词、拍摄地点和摄影师姓名等,所有数据均以JSON Lines格式记录。此外,使用Python脚本`collect-joka.py`从Finna API中检索了这些元数据和图像。
使用方法
NatLibFi/Finna-JOKA-images数据集适用于多种AI/ML任务,如图像到文本的生成和图像着色等。用户可以通过`metadata.jsonl`文件中的`file_name`列定位到具体的JPEG图像文件,并利用附带的元数据进行进一步的分析或模型训练。使用此数据集时,用户需遵循Creative Commons Attribution 4.0许可的要求,包括适当的引用和遵守版权及隐私保护规定。此外,数据集的使用者应确保数据的正确性,并在必要时联系芬兰遗产机构获取更高质量的文件。
背景与挑战
背景概述
NatLibFi/Finna-JOKA-images数据集由芬兰文化遗产机构于近年发布,收录了来自新闻图片档案馆JOKA的4595张1940年以前的老照片。这些照片通过Finna.fi发现服务获取,旨在支持多种人工智能和机器学习任务,如图像描述生成和图像着色。该数据集的创建不仅为历史研究提供了宝贵的视觉资料,也为计算机视觉领域的研究者提供了丰富的研究素材。数据集中的每张照片均附有详细的元数据,包括描述性标题、主题关键词、拍摄地点和摄影师姓名,这些信息以JSON Lines格式存储,便于进一步的分析和应用。
当前挑战
NatLibFi/Finna-JOKA-images数据集在应用过程中面临多重挑战。首先,图像描述生成任务需要处理芬兰语的文本数据,这对非芬兰语背景的研究者构成了语言障碍。其次,由于照片年代久远,图像质量参差不齐,这为图像着色和修复任务带来了技术上的困难。此外,数据集构建过程中,从Finna API获取元数据和图像时,需确保数据的完整性和准确性,这对数据收集和处理流程提出了较高要求。最后,数据集的使用需严格遵守版权和隐私保护规定,这在一定程度上限制了数据的广泛应用。
常用场景
经典使用场景
NatLibFi/Finna-JOKA-images数据集广泛应用于图像到文本和图像到图像的机器学习任务中。该数据集包含4595张1940年以前的新闻摄影图片,这些图片不仅为研究者提供了丰富的历史视觉资料,还支持自动生成图片描述和图像着色等高级图像处理技术的开发。
解决学术问题
该数据集解决了历史图像数字化和自动化处理中的关键问题,如历史图像的自动标注和色彩恢复。通过提供详细的元数据,包括描述性标题、主题关键词和摄影师信息,研究者可以更深入地理解图像内容,推动图像识别和自然语言处理技术的进步。
实际应用
在实际应用中,NatLibFi/Finna-JOKA-images数据集被用于文化遗产的数字化保存和展示。博物馆和历史研究机构利用这些图像进行展览设计、历史教育和公众互动,增强了公众对历史事件和文化遗产的认识和兴趣。
数据集最近研究
最新研究方向
在文化遗产数字化与人工智能交叉领域,NatLibFi/Finna-JOKA-images数据集为研究者提供了丰富的历史图像资源,推动了图像到文本及图像到图像转换技术的前沿探索。该数据集不仅支持自动生成图像描述的研究,还为图像着色技术提供了宝贵的实验材料。随着深度学习技术的进步,利用这些历史图像进行风格迁移、图像修复等任务成为研究热点。此外,该数据集在新闻学、历史学和博物馆学等领域的应用,进一步促进了跨学科研究的发展,为文化遗产的数字化保存与传播提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



