NatLibFi/Finna-HKM-images
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/NatLibFi/Finna-HKM-images
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- image-to-text
- image-to-image
language:
- fi
size_categories:
- 1K<n<10K
tags:
- helsinki
- photograph
- history
- museum
---
# Old photographs from Helsinki City Museum
This is an image dataset consisting of 5947 old photographs (until 1917) from the collections of the Helsinki City Museum, obtained from the Finna.fi discovery service.
The images are intended to be used for different AI/ML tasks such as generating captions or colorizing them.
The images themselves are JPEG files under the directory `images`.
The `metadata.jsonl` file contains metadata about each image, for example descriptive captions (mostly in Finnish), subject keywords, location and the name of the photographer.
The file is in JSON Lines format (each line is a JSON record). The `file_name` column contains the relative path of the JPEG image file.
The Python script `collect-hkm.py` was originally used to retrieve the metadata and images from the from Finna API.
The images have been published by the Helsinki City Museum in Finna using the Creative Commons Attribution 4.0 license and these attribution instructions:
> The terms and conditions of Helsinki City Museum images published in Finna are given separately for each image. Images marked with CC BY 4.0 can be freely downloaded and used as long as the names of the photographer/artist (if known) and Helsinki City Museum are mentioned. The user is responsible for respecting copyright and privacy. Using portraits, for example, in marketing and/or advertising is forbidden without permission from the person pictured. More detailed licensing terms can be found on the Creative Commons licensing website.
许可协议:知识共享署名4.0(CC BY 4.0)
任务类别:
- 图像到文本
- 图像到图像
语言:芬兰语
样本规模:1000至10000条
标签:
- 赫尔辛基
- 摄影
- 历史
- 博物馆
# 赫尔辛基城市博物馆(Helsinki City Museum)馆藏老照片
本数据集为图像类数据集,共收录5947张1917年及之前的赫尔辛基城市博物馆馆藏老照片,数据源自Finna.fi检索服务。
本数据集可用于各类人工智能(AI)/机器学习(ML)任务,例如生成图像标注或图像着色。
所有图像均为JPEG格式文件,存储于`images`目录中。
`metadata.jsonl`文件存储了每张图像的元数据,包括描述性标题(大多为芬兰语)、主题关键词、拍摄地点及摄影师姓名。该文件采用JSON Lines格式(每行均为一条独立的JSON记录),其中`file_name`字段存储对应JPEG图像文件的相对路径。
最初用于从Finna API获取元数据与图像的Python脚本为`collect-hkm.py`。
本数据集内的图像由赫尔辛基城市博物馆通过Finna平台发布,采用知识共享署名4.0(Creative Commons Attribution 4.0,CC BY 4.0)许可协议,并附带以下署名要求:
> 每一张在Finna平台发布的赫尔辛基城市博物馆馆藏图像均配有单独的使用条款。标注为CC BY 4.0的图像可自由下载与使用,但需注明摄影师/创作者(如可获知)及赫尔辛基城市博物馆的名称。使用者需自行遵守版权与隐私相关规定。例如,未经肖像权人书面许可,不得将肖像图像用于营销或广告用途。更详细的许可条款可访问知识共享许可协议官网查阅。
提供机构:
NatLibFi
原始信息汇总
数据集概述
基本信息
- 名称: Old photographs from Helsinki City Museum
- 类型: 图像数据集
- 数量: 5947张旧照片(截至1917年)
- 来源: 赫尔辛基城市博物馆,通过Finna.fi发现服务获取
- 用途: 用于AI/ML任务,如生成标题或着色
数据结构
- 图像格式: JPEG
- 存储位置:
images目录下 - 元数据:
metadata.jsonl文件,包含每张照片的描述性标题(主要为芬兰语)、主题关键词、位置和摄影师名称 - 元数据格式: JSON Lines,每行一个JSON记录
许可信息
- 许可证: Creative Commons Attribution 4.0 (CC BY 4.0)
- 使用条件: 可自由下载和使用,需提及摄影师/艺术家(如已知)和赫尔辛基城市博物馆的名称。用户需负责尊重版权和隐私。未经许可,禁止在营销和/或广告中使用肖像。
搜集汇总
数据集介绍

构建方式
该数据集的构建,是通过从赫尔辛基市博物馆的收藏中精选出5947张截至1917年的老照片,并通过Finna.fi发现服务获取。这些照片以JPEG格式存储,辅以元数据文件提供详尽的描述信息,构建成为适用于人工智能与机器学习任务的数据集。
特点
数据集的特点在于其丰富的历史影像资源,全部照片均带有描述性标题,主题关键词,地点以及摄影师姓名等元数据信息。这些照片不仅反映了赫尔辛基的历史面貌,同时也遵循Creative Commons Attribution 4.0许可,确保了合理使用的广泛性。
使用方法
用户可通过Python脚本collect-hkm.py来检索元数据和图像,数据集的使用需遵循相应的版权和使用条款。具体而言,使用时需提及摄影师和赫尔辛基市博物馆的名称,且不得用于未经授权的营销或广告中,体现了对个人隐私和版权的尊重。
背景与挑战
背景概述
在数字人文与计算机视觉研究领域,NatLibFi/Finna-HKM-images数据集承载了独特的历史价值与科研意义。该数据集由赫尔辛基市博物馆提供,涵盖5947张截至1917年的老照片,通过Finna.fi发现服务获取。其创建旨在服务于人工智能与机器学习任务,如生成图像说明或图像着色。数据集的构建,不仅丰富了语言与图像处理的研究材料,也为探索芬兰历史文化提供了宝贵的资源。该数据集自发布以来,受到了学术界的广泛关注,对图像识别与自然语言处理领域产生了深远的影响。
当前挑战
数据集的构建与使用面临多方面的挑战。首先,如何在保持图像质量的同时,处理大量的历史图像数据,是一大难题。其次,由于照片的年代久远,图像中的信息提取与标注准确性面临挑战,尤其是对于图像中的文字识别和内容理解。此外,构建过程中确保遵守版权法规,合理使用带有版权的图像资源,也是必须严格考虑的问题。在数据集的应用层面,如何准确地将图像内容转化为文字描述,以及如何处理图像着色中的色彩还原问题,均是对研究者技能的考验。
常用场景
经典使用场景
在人工智能与机器学习领域,NatLibFi/Finna-HKM-images数据集的经典使用场景主要集中在图像识别与自然语言处理任务的融合应用。该数据集包含的历史照片可通过深度学习模型进行图像描述生成或色彩还原,进而服务于历史档案的数字化保存与展示。
解决学术问题
该数据集解决了学术研究中对于历史图像的高效标注与理解问题,为历史学、艺术学和计算机视觉等领域的研究提供了丰富的实证材料。它的应用使得自动化图像内容解析成为可能,极大地提高了学术研究的效率和质量。
衍生相关工作
基于该数据集,研究者们已衍生出多项相关工作,包括但不限于历史图像的自动分类、风格迁移以及图像中人物身份的识别研究,这些工作进一步拓宽了数据集的应用范围,丰富了相关领域的研究成果。
以上内容由遇见数据集搜集并总结生成



