five

NatLibFi/Finna-JOKA-images|旧照片数据集|AI/ML应用数据集

收藏
hugging_face2024-05-02 更新2024-06-12 收录
旧照片
AI/ML应用
下载链接:
https://hf-mirror.com/datasets/NatLibFi/Finna-JOKA-images
下载链接
链接失效反馈
资源简介:
这是一个包含4595张旧照片(截至1940年)的图像数据集,这些照片来自Journalistic Picture Archive JOKA的收藏,通过Finna.fi发现服务获取。图像旨在用于不同的AI/ML任务,如生成标题或着色。图像本身是JPEG格式,存储在`images`目录下。`metadata.jsonl`文件包含每张图像的元数据,例如描述性标题(主要是芬兰语)、主题关键词、位置和摄影师姓名。文件采用JSON Lines格式(每行是一个JSON记录)。`file_name`列包含JPEG图像文件的相对路径。Python脚本`collect-joka.py`最初用于从Finna API检索元数据和图像。这些图像由芬兰遗产机构在Finna上发布,使用Creative Commons Attribution 4.0许可证。

这是一个包含4595张旧照片(截至1940年)的图像数据集,这些照片来自Journalistic Picture Archive JOKA的收藏,通过Finna.fi发现服务获取。图像旨在用于不同的AI/ML任务,如生成标题或着色。图像本身是JPEG格式,存储在`images`目录下。`metadata.jsonl`文件包含每张图像的元数据,例如描述性标题(主要是芬兰语)、主题关键词、位置和摄影师姓名。文件采用JSON Lines格式(每行是一个JSON记录)。`file_name`列包含JPEG图像文件的相对路径。Python脚本`collect-joka.py`最初用于从Finna API检索元数据和图像。这些图像由芬兰遗产机构在Finna上发布,使用Creative Commons Attribution 4.0许可证。
提供机构:
NatLibFi
原始信息汇总

数据集概述

数据集名称

Old photographs from Journalistic Picture Archive JOKA

数据集内容

  • 图像数量: 4595张
  • 图像类型: 老照片(截至1940年)
  • 文件格式: JPEG
  • 存储位置: images目录下

数据集用途

  • 用于AI/ML任务,如生成标题或彩色化图像

元数据信息

  • 文件: metadata.jsonl
  • 格式: JSON Lines(每行一个JSON记录)
  • 包含信息: 描述性标题(主要为芬兰语)、主题关键词、位置、摄影师名称
  • file_name字段: 包含JPEG图像文件的相对路径

许可信息

  • 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
  • 使用要求: 必须引用作者和/或摄影师的名称、收藏和组织的名称。使用时需尊重版权和隐私保护,确保数据的正确性。未经许可,禁止在营销和广告中使用肖像。用户需负责获取涉及人物、作品和商标的许可。用户需根据使用目的负责数据处理。

数据集标签

  • 新闻学
  • 摄影
  • 历史
  • 博物馆

任务类别

  • 图像到文本
  • 图像到图像

语言

  • 芬兰语

数据集大小

  • 1K<n<10K
AI搜集汇总
数据集介绍
main_image_url
构建方式
NatLibFi/Finna-JOKA-images数据集通过Finna.fi发现服务,从Journalistic Picture Archive JOKA的收藏中精选了4595张1940年以前的老照片。这些照片以JPEG格式存储,并附有详细的元数据,包括描述性标题、主题关键词、拍摄地点和摄影师姓名等,所有数据均以JSON Lines格式记录。此外,使用Python脚本`collect-joka.py`从Finna API中检索了这些元数据和图像。
使用方法
NatLibFi/Finna-JOKA-images数据集适用于多种AI/ML任务,如图像到文本的生成和图像着色等。用户可以通过`metadata.jsonl`文件中的`file_name`列定位到具体的JPEG图像文件,并利用附带的元数据进行进一步的分析或模型训练。使用此数据集时,用户需遵循Creative Commons Attribution 4.0许可的要求,包括适当的引用和遵守版权及隐私保护规定。此外,数据集的使用者应确保数据的正确性,并在必要时联系芬兰遗产机构获取更高质量的文件。
背景与挑战
背景概述
NatLibFi/Finna-JOKA-images数据集由芬兰文化遗产机构于近年发布,收录了来自新闻图片档案馆JOKA的4595张1940年以前的老照片。这些照片通过Finna.fi发现服务获取,旨在支持多种人工智能和机器学习任务,如图像描述生成和图像着色。该数据集的创建不仅为历史研究提供了宝贵的视觉资料,也为计算机视觉领域的研究者提供了丰富的研究素材。数据集中的每张照片均附有详细的元数据,包括描述性标题、主题关键词、拍摄地点和摄影师姓名,这些信息以JSON Lines格式存储,便于进一步的分析和应用。
当前挑战
NatLibFi/Finna-JOKA-images数据集在应用过程中面临多重挑战。首先,图像描述生成任务需要处理芬兰语的文本数据,这对非芬兰语背景的研究者构成了语言障碍。其次,由于照片年代久远,图像质量参差不齐,这为图像着色和修复任务带来了技术上的困难。此外,数据集构建过程中,从Finna API获取元数据和图像时,需确保数据的完整性和准确性,这对数据收集和处理流程提出了较高要求。最后,数据集的使用需严格遵守版权和隐私保护规定,这在一定程度上限制了数据的广泛应用。
常用场景
经典使用场景
NatLibFi/Finna-JOKA-images数据集广泛应用于图像到文本和图像到图像的机器学习任务中。该数据集包含4595张1940年以前的新闻摄影图片,这些图片不仅为研究者提供了丰富的历史视觉资料,还支持自动生成图片描述和图像着色等高级图像处理技术的开发。
解决学术问题
该数据集解决了历史图像数字化和自动化处理中的关键问题,如历史图像的自动标注和色彩恢复。通过提供详细的元数据,包括描述性标题、主题关键词和摄影师信息,研究者可以更深入地理解图像内容,推动图像识别和自然语言处理技术的进步。
实际应用
在实际应用中,NatLibFi/Finna-JOKA-images数据集被用于文化遗产的数字化保存和展示。博物馆和历史研究机构利用这些图像进行展览设计、历史教育和公众互动,增强了公众对历史事件和文化遗产的认识和兴趣。
数据集最近研究
最新研究方向
在文化遗产数字化与人工智能交叉领域,NatLibFi/Finna-JOKA-images数据集为研究者提供了丰富的历史图像资源,推动了图像到文本及图像到图像转换技术的前沿探索。该数据集不仅支持自动生成图像描述的研究,还为图像着色技术提供了宝贵的实验材料。随着深度学习技术的进步,利用这些历史图像进行风格迁移、图像修复等任务成为研究热点。此外,该数据集在新闻学、历史学和博物馆学等领域的应用,进一步促进了跨学科研究的发展,为文化遗产的数字化保存与传播提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录