five

forbin_dataset

收藏
Hugging Face2025-12-04 更新2025-12-05 收录
下载链接:
https://huggingface.co/datasets/mchelali/forbin_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Forbin数据集包含来自法国探险家、摄影师和作家Victor Forbin(1868-1947)个人档案的数字化历史照片。这些图像配有丰富的元数据和手动提取的分割多边形,适用于计算机视觉、文档分析、文化遗产研究和机器学习研究。当前版本是一个小规模的公开样本,用于演示和早期实验,完整版本将包含数万张带有完整元数据和注释的图像。
创建时间:
2025-12-03
原始信息汇总

Forbin Dataset 概述

数据集基本信息

  • 数据集名称: Forbin Dataset
  • 标签: 人文、数字人文、档案、历史文档、文本检测、多边形标注、正反面照片
  • 许可证: Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
  • 任务类别: 目标检测、特征提取、图像分类
  • 完整名称: Forbin Dataset: A collection of historical photographs with archival metadata

数据集描述

该数据集包含来自法国探险家、摄影师和作家**Victor Forbin (1868–1947)**个人档案的数字化历史照片。数据集附有丰富的元数据和手动提取的分割多边形,适用于计算机视觉、文档分析、文化遗产研究和机器学习研究。

当前版本为完整数据集的一个小型公开样本,用于演示和早期实验。完整数据集(图像 + COCO风格标注 + 元数据)将在相关数据论文被接受后于Hugging Face发布。

样本内容

  • 一个精心挑选的图像子集
  • COCO风格的标注(分割多边形)
  • 档案元数据(盒ID、描述、注释、可用日期)
  • 一个轻量级的浏览器界面(HTML/JS),用于预览图像和标注

使用许可

  • 必须提供署名
  • 可以共享和改编材料
  • 不可用于商业目的
  • 许可证链接:https://creativecommons.org/licenses/by-nc/4.0/

引用

如在学术工作中使用此数据集或样本,请引用待发表的数据论文:

[Under review] Chelali M., Gosselet S. K., Cloppet F., Kurtz C., Bloch I. and Foliard D., The Forbin Dataset: Forbin Dataset: A collection of historical photographs with archival metadata, 2025.

在线演示

浏览器界面发布后可通过以下地址访问:https://mchelali.github.io/forbin_dataset/

致谢

本数据集源自Victor Forbin的个人档案,由High Vision Project – Archives & Vision Initiative进行数字化和整理。所有标注和数据处理工作均由项目贡献者完成。

搜集汇总
数据集介绍
main_image_url
构建方式
在数字人文与文化遗产保护的交叉领域,Forbin数据集通过系统化流程构建而成。其核心源自法国探险家兼摄影师维克多·福尔班的个人档案,经过专业团队的数字化处理,将历史照片转化为可供计算分析的高质量资源。构建过程中,每幅图像均辅以详尽的档案元数据,并采用人工标注方式提取了精细的COCO风格分割多边形,确保了数据在计算机视觉与文档分析任务中的直接可用性。这一严谨的构建方法为历史影像的机器学习研究奠定了可靠的数据基础。
特点
该数据集在历史影像资源中展现出独特的多模态特性。它不仅提供了高分辨率的正反面历史照片,还融合了丰富的档案元数据,如盒编号、描述、注释及可考日期,形成了图像与文本信息的有机联结。其标注体系采用多边形分割形式,精准勾勒了图像中的文本区域与视觉元素,特别适用于文本检测、图像分类等精细化分析任务。这种结构化的多维度数据组织,为文化遗产的数字化研究与跨学科探索提供了高度适配的素材。
使用方法
研究者在利用Forbin数据集时,可通过其提供的COCO格式标注文件与元数据表格进行多任务实验。数据集适用于目标检测、特征提取及图像分类等计算机视觉任务,用户可直接加载标注信息训练或评估模型性能。同时,配套的轻量级探索界面支持在线预览图像与标注结果,便于直观检查与数据筛选。在学术应用中,需遵循CC BY-NC 4.0许可协议,注明出处并限于非商业用途,以确保符合开放科学与文化遗产共享的伦理规范。
背景与挑战
背景概述
在数字人文与文化遗产保护领域,历史影像的数字化与结构化分析已成为跨学科研究的关键课题。Forbin数据集由High Vision Project – Archives & Vision Initiative团队于2025年前后创建,核心研究人员包括Chelali M.、Gosselet S. K.等学者。该数据集聚焦于法国探险家兼摄影师Victor Forbin(1868–1947)的个人档案,旨在通过大规模历史照片的收集与标注,推动计算机视觉、文档分析与文化遗产研究的深度融合。其核心研究问题在于如何利用现代技术手段对非结构化历史影像进行自动化解析与语义理解,从而为历史学、艺术史及档案学提供可计算的研究基础。该数据集的建立不仅丰富了历史视觉资料的公开资源,也为跨领域方法论创新提供了实证支撑。
当前挑战
Forbin数据集致力于解决历史影像分析中的复杂挑战,首要问题在于对多样化历史照片进行精确的对象检测与特征提取,例如图像中文本区域的多边形分割、正反面(verso-recto)关系的识别,以及基于稀疏元数据的语义关联建模。这些任务因历史影像的退化、拍摄技术差异及内容异构性而尤为困难。在构建过程中,团队面临多重挑战:原始档案的物理保存状态导致数字化质量参差不齐;手动标注需要专业历史知识以确保多边形分割与元数据描述的准确性;同时,在遵守CC BY-NC 4.0许可下平衡学术开放性与商业使用限制亦需周密考量。这些挑战共同凸显了在文化遗产数字化中融合技术严谨性与人文敏感性的必要性。
常用场景
经典使用场景
在数字人文与文化遗产研究领域,Forbin数据集为历史照片的分析提供了关键资源。其经典使用场景集中于计算机视觉任务,特别是基于多边形标注的文本检测与图像分割。研究者利用该数据集训练模型,以自动识别和提取历史照片中的文档区域,如手写笔记、印刷文字或图像中的特定元素,从而支持档案的数字化整理与内容解析。
实际应用
在实际应用中,Forbin数据集被广泛应用于文化遗产机构和数字档案馆。它能够辅助档案管理员对大量历史照片进行自动编目、内容检索和损伤评估。例如,通过检测图像中的文本区域,可以快速建立可搜索的元数据索引;同时,分割技术有助于分离照片的正反面(recto-verso)信息,从而提升档案管理的效率与准确性,为公众和研究者提供更便捷的历史资料访问途径。
衍生相关工作
围绕Forbin数据集,已衍生出多项经典研究工作。这些工作主要集中在利用其标注数据开发先进的物体检测与分割模型,以处理历史文档的独特挑战,如褪色、污损或复杂布局。部分研究进一步结合其档案元数据,探索多模态学习方法,用于图像描述生成或历史上下文重建。这些成果不仅推动了文档分析算法的进步,也为数字人文领域设立了新的基准与范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作