five

biglam/dating-historical-color-images

收藏
Hugging Face2023-05-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/dating-historical-color-images
下载链接
链接失效反馈
官方服务:
资源简介:
我们引入了自动估计历史彩色照片年龄的任务。我们提出了基于彩色成像过程随时间演变的特征,以捕捉时间上的区分信息,并在一个新的历史图像数据集上评估这些新特征和现有特征的性能。对于将历史彩色图像分类到拍摄年代的挑战性任务,我们展示了比未经训练的人类在同一数据集上更高的准确性。此外,我们将数据驱动的相机响应函数估计应用于历史彩色图像,展示了其与年龄估计任务和模仿复古彩色摄影外观的流行应用的相关性。

我们引入了自动估计历史彩色照片年龄的任务。我们提出了基于彩色成像过程随时间演变的特征,以捕捉时间上的区分信息,并在一个新的历史图像数据集上评估这些新特征和现有特征的性能。对于将历史彩色图像分类到拍摄年代的挑战性任务,我们展示了比未经训练的人类在同一数据集上更高的准确性。此外,我们将数据驱动的相机响应函数估计应用于历史彩色图像,展示了其与年龄估计任务和模仿复古彩色摄影外观的流行应用的相关性。
提供机构:
biglam
原始信息汇总

数据集概述

数据集名称

  • Dating Historical Color Images

任务类别

  • image-classification

标签

  • history
  • lam
  • photography

数据集大小

  • 1K<n<10K

数据集特征

  • image: 图像数据类型
  • label: 分类标签,包含以下类别:
    • 0: 1930s
    • 1: 1940s
    • 2: 1950s
    • 3: 1960s
    • 4: 1970s

数据集分割

  • train: 包含1325个样本,总字节数为221261063

数据集下载大小

  • 222265856字节

数据集大小

  • 221261063字节

数据集创建

  • 初始数据收集与标准化: 从约230,000张Flickr上的1980年前的图片中筛选,移除单色图像,并手动检查以去除非摄影内容。最终随机抽样和降采样,形成每十年包含相同数量历史彩色图像的数据集(总计1,375张图片)。
  • 标注过程: 基于Flickr上的元数据进行标注。
  • 标注者: 上传图像至Flickr的个人或文化机构。

数据集用途

  • 用于训练图像分类或回归模型,预测彩色照片拍摄的时间段。
搜集汇总
数据集介绍
main_image_url
构建方式
在历史影像分析领域,构建具有时间标注的彩色图像数据集对于研究摄影技术演进至关重要。本数据集源自约23万张1980年前拍摄的Flickr图像,通过自动化流程剔除单色影像,并辅以人工审查移除非摄影内容及残留单色图像。最终采用随机子采样与降采样技术,均衡选取每个年代(1930s至1970s)的图像,形成包含1375张样本的标准化集合,其标注信息直接继承自Flickr平台的上传元数据。
特点
该数据集聚焦于历史彩色摄影的时代特征,涵盖1930年代至1970年代五个连续十年的图像分类标签,每十年样本量均衡分布。图像内容真实反映了不同时期色彩成像工艺的演变,如胶片化学特性与色调风格的变迁,为时序视觉模式分析提供了纯净的素材基础。数据规模适中,兼具历史价值与研究可行性,适用于跨年代视觉特征的细粒度挖掘。
使用方法
本数据集主要应用于图像分类或回归任务,旨在训练模型自动推断彩色照片的拍摄年代。使用者可直接加载图像与对应年代标签,构建时序分类模型,或探索色彩特征与年代之间的回归关系。鉴于数据未预设训练测试划分,建议采用交叉验证或自主划分策略以评估模型泛化能力,同时可结合色彩统计、响应函数估计等方法,深化历史影像年代鉴定技术的研究。
背景与挑战
背景概述
在数字人文与计算机视觉的交叉领域,历史影像的年代自动估计逐渐成为一项关键研究课题。由卡内基梅隆大学等机构的研究人员于2013年前后构建的Dating Historical Color Images数据集,专注于解决彩色历史照片的年代自动分类问题。该数据集收录了从20世纪30年代至70年代五个十年间的彩色图像,旨在通过计算模型捕捉影像色彩随时间的演变规律,从而推断其拍摄年代。这一工作不仅推动了影像年代学的发展,也为文化遗产的数字化保护提供了重要的技术支撑,对历史学、档案学及视觉计算领域产生了深远影响。
当前挑战
该数据集所针对的历史影像年代估计任务面临多重挑战:首先,由于早期彩色摄影技术在不同年代存在显著差异,且影像保存条件各异,模型需从复杂的色彩退化、噪声及风格变化中提取稳健的时间特征;其次,数据集的构建过程亦充满困难,原始图像需从海量网络资源中筛选,并经过人工剔除单色影像及非摄影内容,以确保数据的纯净性与时代代表性,这一过程耗时且依赖专业判断。此外,数据标注完全依赖于Flickr平台的元数据,其准确性与一致性难以完全保证,可能引入潜在偏差。
常用场景
经典使用场景
在数字人文与计算摄影学领域,历史影像的年代自动估计是一个具有挑战性的任务。Dating Historical Color Images数据集通过提供按年代标注的彩色历史照片,为研究者构建了一个标准化的评估平台。该数据集最经典的使用场景是训练图像分类模型,以识别照片所属的特定年代(如1930s至1970s)。模型通过学习影像中随时间演变的色彩特征、成像工艺及视觉风格,实现高精度的年代分类,其性能甚至超越了未经训练的人类判断,为历史影像的自动化分析奠定了技术基础。
解决学术问题
该数据集主要解决了历史影像分析中的年代鉴定难题,填补了彩色摄影史计算研究的空白。传统上,历史照片的年代判断依赖于专家经验,主观性强且效率低下。本数据集通过提供大规模、跨年代的标注样本,使得基于机器学习的方法能够系统性地捕捉时间相关的视觉模式,如胶片色彩响应、褪色特性及构图风格。这不仅推动了图像年代估计这一新兴研究方向的发展,也为数据驱动的相机响应函数估计提供了实证基础,促进了计算摄影与数字文化遗产保护的交叉融合。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作。早期研究聚焦于设计专门捕捉时间判别性信息的特征,如基于色彩成像过程演化的特征提取方法。后续工作则探索了深度学习架构在历史影像分类中的应用,比较了卷积神经网络与传统特征的性能差异。此外,部分研究将该数据集扩展至回归任务,预测更精确的拍摄年份,并与跨域迁移学习结合,提升了模型在稀缺历史数据上的泛化能力。这些工作共同推动了影像年代分析领域的算法创新与理论深化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作