five

IMAGO

收藏
arXiv2020-12-03 更新2024-07-31 收录
下载链接:
http://imago.unibo.it/
下载链接
链接失效反馈
官方服务:
资源简介:
IMAGO数据集由博洛尼亚大学生活质量研究系创建,包含约80,000张家庭相册照片,覆盖1845至2009年。这些照片来自约1,500个家庭,主要来自意大利的艾米利亚-罗马涅及其邻近地区。数据集中的16,642张照片已被标记,每张照片包含拍摄年份、简短描述、拍摄地点及独特的社会历史标签。IMAGO数据集旨在通过深度学习模型,自动识别照片的拍摄年份和社会历史背景,为社会历史研究提供新的分析工具。

The IMAGO dataset was developed by the Department of Life Quality Studies at the University of Bologna. It comprises approximately 80,000 family album photos spanning from 1845 to 2009, sourced from roughly 1,500 families primarily located in Emilia-Romagna and its adjacent regions of Italy. A total of 16,642 photos within the dataset have been fully annotated, with each annotated entry containing the capture year, brief description, shooting location, and unique socio-historical tags. The core objective of the IMAGO dataset is to provide a novel analytical tool for socio-historical research by enabling deep learning models to automatically identify the capture year and socio-historical context of the photos.
提供机构:
博洛尼亚大学生活质量研究系
创建时间:
2020-12-03
搜集汇总
数据集介绍
构建方式
在家庭相册作为社会历史研究重要载体的背景下,IMAGO数据集的构建体现了系统性的数字化与标注流程。该数据集源自博洛尼亚大学里米尼校区自2004年起收集的约80,000张家庭相册模拟照片,时间跨度涵盖1845年至2009年。通过人工标注流程,其中16,642张图像被赋予了拍摄年份、简短描述、拍摄地点及基于社会历史文献定义的类别标签。标注工作由时尚文化与实践专业的本科生在社会历史学者指导下完成,确保了标签的学术可靠性。数据集的构建还涉及利用YOLO-FACE和YOLO算法从原始图像中提取人脸和全身图像,形成IMAGO-FACES和IMAGO-PEOPLE子集,以支持多视角分析。
特点
IMAGO数据集的显著特点在于其独特的社会历史维度与视觉多样性。作为首个专注于家庭相册图像的公开数据集,它提供了跨越一个多世纪的视觉记录,深刻反映了意大利艾米利亚-罗马涅及邻近地区的社会变迁。数据集包含九类社会历史语境标签,如工作、休闲、时尚、情感等,这些类别基于学术文献定义,赋予了图像丰富的文化内涵。图像内容呈现高度不平衡性,多数样本集中于1950至1980年代,且情感、时尚和休闲类别占主导。这种不平衡性恰好映射了家庭摄影实践的历史演变,为研究二十世纪日常生活提供了珍贵而真实的视觉素材。
使用方法
IMAGO数据集的使用主要围绕图像年代估计与社会历史语境分类两大任务展开。研究者可采用深度学习模型,如ResNet50、InceptionV3和DenseNet121,在数据集上进行微调训练。对于年代估计,可构建多输入架构,融合原始图像、人脸及全身图像的特征,以提升预测精度;社会历史分类则更依赖原始图像的整体语境分析。数据集已按80%训练、10%验证、10%测试的比例划分,确保评估的公正性。使用中需注意图像的不平衡分布,可采用加权损失函数等方法处理。此外,Grad-CAM等可视化工具有助于解读模型决策依据,深化对社会历史线索的理解。
背景与挑战
背景概述
IMAGO数据集由博洛尼亚大学里米尼校区自2004年起构建,旨在通过家庭相册照片进行二十世纪社会历史分析。该数据集汇集了约80,000张拍摄于1845年至2009年间的家庭照片,涵盖约1,500个家庭,主要来自意大利艾米利亚-罗马涅及邻近地区。研究团队包括Lorenzo Stacchio、Alessia Angeli等学者,核心研究问题聚焦于利用深度学习技术对图像进行年代判定与社会历史语境分类,从而为历史学、社会文化人类学等领域提供无需依赖外部信息的自动化分析工具。IMAGO的创建填补了家庭相册大规模数字化分析的空白,推动了视觉史料在计算社会科学中的应用。
当前挑战
IMAGO数据集面临的挑战主要体现在两方面:其一,在领域问题层面,家庭相册图像的社会历史语境分类任务具有高度复杂性,例如休闲、时尚与情感等类别在视觉特征上存在显著重叠,导致模型区分困难;同时,图像年代判定需克服早期照片质量低下、样本分布不均以及专业拍摄与日常快照风格差异等干扰因素。其二,在构建过程中,数据采集面临纸质照片分散于私人收藏、保存状态参差不齐的难题;数字化阶段需处理扫描图像的噪声、损坏及分辨率问题,且标注工作依赖人工,易引入观察者偏差,影响标签一致性。
常用场景
经典使用场景
在数字人文与计算社会科学领域,IMAGO数据集为研究者提供了探索二十世纪社会历史变迁的独特窗口。该数据集通过深度学习技术,对家庭相册中的图像进行年代判定与社会历史语境分类,使得学者能够从视觉材料中提取大规模、系统化的社会文化模式。其经典应用场景在于,利用卷积神经网络分析照片中的服饰、场景与人物互动,自动识别图像所属的历史时期及社会活动类别,从而为历史学、人类学等学科提供量化分析工具,突破传统手工检视的局限。
衍生相关工作
围绕IMAGO数据集衍生的经典工作主要集中在多模态历史分析范式的拓展。后续研究借鉴其融合人脸、全身像与整体场景的多分支架构,开发出针对历史肖像画风格迁移的跨时代生成模型。在方法论层面,该数据集启发了对观察者偏见的量化研究,促使学界探索带有多重标注的历史图像分类评估框架。此外,基于IMAGO的迁移学习技术被应用于区域文化比较研究,例如通过对比不同地理区域的家庭相册视觉特征,揭示地方性社会结构的差异与交融。
数据集最近研究
最新研究方向
在数字人文与计算社会史学领域,IMAGO数据集作为首个专注于家庭相册的大规模视觉档案,正推动着跨学科研究的前沿探索。该数据集通过深度学习技术,实现了对1845年至2009年间家庭照片的自动年代判定与社会历史语境分类,为历史学家、社会学家及文化研究者提供了量化分析工具。当前研究热点集中于多模态信息融合,例如结合图像中的人物面部、服饰、场景及空间关系等特征,以提升模型在年代识别与语境分类中的鲁棒性。这一方向不仅深化了计算机视觉在文化遗产数字化中的应用,更促进了社会历史研究的范式转型,使学者能够从海量非结构化视觉资料中挖掘群体记忆、社会变迁与文化认同的微观轨迹。
相关研究论文
  • 1
    IMAGO: A family photo album dataset for a socio-historical analysis of the twentieth century博洛尼亚大学生活质量研究系 · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作