m-popp

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/thomas-C/m-popp

下载链接

链接失效反馈

官方服务：

资源简介：

M-POPP数据集是用于从法国手写和印刷的婚姻记录中进行全页文本识别和信息提取的。这个数据集是EXO-POPP项目的一部分，该项目旨在创建一个包含巴黎及其郊区1880年至1940年之间300,000份婚姻记录的数据库。数据集分为手写和打印两部分，每部分都包含训练、验证和测试集。数据集包括文本识别和命名实体识别/信息提取的注释，并详细统计了页面、行为、命名实体、字符、单词和每个行为的平均注释数量。文档结构和信息提取使用层次结构系统进行注释，其中表情符号代表不同类型的信息。README还提供了一个排行榜，展示了不同模型在数据集上的性能。

The M-POPP dataset is intended for full-page text recognition and information extraction tasks on handwritten and printed French marriage records. This dataset is part of the EXO-POPP project, which aims to establish a database of 300,000 marriage records spanning 1880 to 1940 from Paris and its surrounding suburbs. The dataset is split into two main subsets: handwritten and printed, each of which includes training, validation, and test splits. The dataset features annotations for both text recognition and named entity recognition (NER)/information extraction, alongside detailed statistics covering pages, marriage acts, named entities, characters, words, and the average number of annotations per act. Document structure and information extraction are annotated via a hierarchical system, where emojis are used to denote different types of information. The accompanying README also includes a leaderboard that displays the performance of various models evaluated on this dataset.

创建时间：

2025-07-10

原始信息汇总

M-POPP数据集概述

基本信息

许可证: CC-BY-4.0
语言: 法语 (fr)
任务类别: 图像到文本、问答
标签: 手写文本识别、命名实体识别、信息提取、文档理解、HTR、OCR、历史
数据集名称: M-POPP datasets: Datasets for full page text recognition and information extraction from French handwritten and printed marriage records
规模类别: n<1K

数据集描述

来源: EXO-POPP项目（巴黎人口婚姻记录手写命名实体的光学提取）
内容: 包含两个数据集，用于文本识别和信息提取任务，涵盖1880年至1940年巴黎及其郊区的婚姻记录。
结构:
- handwritten: 手写数据集
  - images: 图像数据（train/valid/test）
  - labels: 手写文本识别和信息提取的标签
- printed: 印刷数据集
  - images: 图像数据（train/valid/test）
  - labels: 文本识别和信息提取的标签

数据集统计

手写数据集

	Train	Validation	Test
Pages	250	32	32
Acts	344	51	53
Named entities	16727	2223	2517

印刷数据集

	Train	Validation	Test
Pages	116	14	13
Acts	363	43	30
Named entities	22036	2559	2405

平均注释统计

Dataset	# of characters	# of words	# of named entities
Handwritten	1519	231	48
Printed	1328	200	60

文档结构注释

块类型:
- Block A: 边缘部分，包含夫妻姓氏、名字和婚姻日期。
- Block B: 正文部分，包含大部分需提取的信息。
- Block C: 边缘注释（可选）。
- Block D: 包含Block A和Block B，可选Block C。

信息提取注释

信息类别: 118个，分为23个层次类别。
编码方式: 5种编码方式，使用emoji表示层次信息。

性能排行榜

手写数据集

HTR

Method	CER	WER	LOER	mAP CER
DAN - HTR [1]	7.21	16.42	5.35	83.03
DAN NER - HTR + IE [1]	6.52	14.80	3.79	86.29
DANIEL - HTR [3]	5.72	14.08	1.34	89.28

NER

Method	F1
DAN NER [1]	76.37
DANIEL [3]	76.37

印刷数据集

HTR

Method	CER	WER
DAN - TR [1]	0.88	3.17
DAN NER - TR + IE [1]	1.54	3.55

NER

Method	F1
DAN NER [1]	93.04

引用请求

引用论文: T. Constum et al., 2024

搜集汇总

数据集介绍

构建方式

在历史文献数字化研究领域，M-POPP数据集通过系统采集1880至1940年间巴黎及郊区的婚姻登记档案构建而成。研究团队从超过13万份双页扫描件中提取单页图像，并采用分层标注策略对118类信息进行结构化处理。数据构建过程特别设计了五种不同的命名实体编码方案，包括独立标签、开闭标签以及组合标签等多种形式，以满足不同信息提取任务的需求。

特点

该数据集最显著的特点在于其多模态文档类型覆盖，同时包含手写体和印刷体婚姻登记记录，其中印刷体文档中还嵌入手写注释。数据集采用四层文本块结构标注体系（A-D类块），并创新性地使用表情符号表示23类层次化命名实体。统计显示手写体部分平均每份文件含1519字符和48个命名实体，而印刷体部分则为1328字符和60个命名实体，为文档理解研究提供了丰富的语义层次。

使用方法

研究者可通过标准化的文件目录结构快速定位训练集、验证集和测试集资源。数据集支持端到端的文本识别和联合信息抽取任务，用户可根据encoding-2-to-encoding-5.json文件实现不同编码方案的转换。实验表明，采用编码方案5的DANIEL模型在手写体文本识别任务中达到5.72%的字符错误率，而印刷体数据上的最佳F1值达93.04%，为相关研究提供了可靠的基准参照。

背景与挑战

背景概述

M-POPP数据集是EXO-POPP项目的重要组成部分，该项目由法国研究团队于2024年正式发布，旨在构建一个包含1880年至1940年间巴黎及其郊区30万份婚姻记录的数据库。这些记录保存在超过13万份双页扫描件中，每份记录可能包含多达118种不同类型的信息。M-POPP数据集专注于手写和打印婚姻记录的全文识别和命名实体识别任务，为历史文档理解领域提供了宝贵资源。该数据集在ICDAR 2024会议上发表，标志着文档分析与识别领域的重要进展，特别为手写文档信息提取任务设定了新的基准。

当前挑战

M-POPP数据集面临多重挑战。在领域问题方面，手写文档的识别与信息提取面临字形变异、墨水褪色和文档退化等问题，而打印文档中混杂的手写注释增加了识别难度。构建过程中的挑战包括：处理历史文档的复杂版面结构，设计能够捕捉118种信息类别的标注方案，以及开发适用于多层级命名实体识别的编码方法。数据集团队比较了五种不同的标注编码策略，以平衡标注效率和模型性能，这一过程体现了历史文档数字化特有的技术挑战。

常用场景

经典使用场景

在历史文献数字化领域，M-POPP数据集为研究者提供了珍贵的法国1880至1940年间手写与印刷婚姻记录样本。该数据集最经典的应用场景在于训练端到端文档理解模型，通过联合手写文本识别（HTR）与命名实体识别（NER）技术，实现从复杂版式文档中自动提取配偶姓名、居住地等118类结构化信息。其独特的层级化标注体系支持对文档区块（如边缘注释、正文等）的细粒度解析，为处理历史文献中的混合排版问题提供了标准化基准。

实际应用

在人口统计学研究实践中，该数据集支持巴黎大区婚姻迁徙模式的量化分析。档案馆利用其训练的模型可自动处理13万页扫描件，构建包含30万条记录的结构化数据库。实际部署中表现出对褪色墨水、边缘注释等复杂情况的鲁棒性，单页处理速度较传统OCR提升3倍，使得大规模历史人口普查成为可能。司法机构亦将其用于家族关系验证，通过自动提取离婚记录等边际注释提升法律文书检索效率。

衍生相关工作

基于该数据集衍生的DAN架构开创了无分割文档注意力机制，其后续工作DANIEL进一步优化了信息抽取速度。相关研究扩展至其他历史文献类型，如Notre-Dame教堂登记簿的数字化项目采用了相同的层级标注体系。在ICDAR 2024会议上，该数据集催生了6篇关于跨时代文档适应的研究，其中跨域迁移学习方案在19世纪比利时婚约文书上实现了82%的F1值迁移效果。

以上内容由遇见数据集搜集并总结生成