mgr-birthdates

github2022-12-19 更新2024-05-31 收录

下载链接：

https://github.com/coastalcph/mgr-birthdates

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含丹麦教区记录中的出生日期，分为训练、验证和测试集，每个集合进一步分为简单、平均和困难级别。数据集中的每个文件夹包含图像和映射文件名到标签的`labels.csv`文件。

This dataset comprises birth dates extracted from Danish parish records, categorized into training, validation, and test sets. Each set is further divided into simple, average, and difficult levels. Within the dataset, each folder contains images alongside a `labels.csv` file that maps filenames to their corresponding labels.

创建时间：

2022-09-16

原始信息汇总

数据集概述

数据集名称

Date Recognition in Historical Parish Records

数据集内容

出生日期数据集：位于data/birthdate目录下，包含训练、验证和测试数据。测试数据进一步分为简单、平均和困难三个子目录。每个子目录包含图像文件和labels.csv文件，用于映射文件名到标签。
行ID数据集：位于data/row_id目录下，同样包含训练、验证和测试数据，结构与出生日期数据集类似。

数据集引用

若在研究中使用此数据集，请按以下方式引用：

bibtex @inproceedings{cabello-etal-2022-mgr, author="Piqueras, Laura Cabello and Fierro, Constanza and Lotz, Jonas F. and Rust, Phillip and Rommedahl, Joen and Due, Jeppe Klok and Igel, Christian and Elliott, Desmond and Pedersen, Carsten B. and Salazar, Israfel and S{o}gaard, Anders", editor="Porwal, Utkarsh and Forn{e}s, Alicia and Shafait, Faisal", title="Date Recognition in Historical Parish Records", booktitle="Frontiers in Handwriting Recognition", year="2022", publisher="Springer International Publishing", address="Cham", pages="49--64", isbn="978-3-031-21648-0" }

搜集汇总

数据集介绍

构建方式

该数据集构建于丹麦教区记录中的出生日期信息，旨在支持历史文献中的日期识别研究。数据集通过精细的分割处理，将出生日期和行ID分别存储于不同的文件夹中，并进一步划分为训练集、验证集和测试集。测试集还根据难度分为简单、中等和困难三个子集，每个子集包含图像文件及对应的标签文件，标签文件以CSV格式存储，实现了文件名与标签的映射。

特点

该数据集的特点在于其结构化的数据组织形式和多样化的难度分级。数据集不仅提供了图像数据，还通过标签文件实现了数据的高效管理。测试集的难度分级为研究者提供了更具挑战性的实验环境，有助于评估模型在不同复杂度任务中的表现。此外，数据集的来源具有历史价值，为研究历史文献的数字化处理提供了宝贵的资源。

使用方法

使用该数据集时，研究者可从训练集开始，逐步调整模型参数，并通过验证集进行调优。测试集的难度分级可用于评估模型在不同场景下的鲁棒性。标签文件的使用简化了数据加载过程，研究者可通过文件名快速获取对应的标签信息。此外，数据集的设计支持多种机器学习任务，如日期识别、图像分割等，为相关领域的研究提供了灵活的实验平台。

背景与挑战

背景概述

mgr-birthdates数据集聚焦于丹麦历史教区记录中的出生日期识别问题，由Laura Cabello Piqueras等研究人员在2022年ICFHR会议上首次提出。该数据集旨在通过图像识别技术，自动化处理历史文献中的手写日期信息，为历史学、人口统计学等领域的研究提供数据支持。其核心研究问题在于如何从复杂的手写记录中准确提取日期信息，并克服历史文献中常见的模糊、破损等挑战。该数据集的发布不仅推动了手写文字识别技术的发展，也为历史文献的数字化处理提供了重要参考。

当前挑战

mgr-birthdates数据集在解决历史文献日期识别问题时面临多重挑战。首先，手写日期的多样性和历史文献的退化问题使得图像识别的准确性难以保证。其次，数据集的构建过程中，研究人员需处理大量模糊、破损或部分缺失的记录，这对数据标注和预处理提出了极高要求。此外，数据集的划分（如简单、中等、困难三类测试集）进一步增加了模型评估的复杂性，要求算法在不同难度级别上均具备鲁棒性。这些挑战共同构成了该数据集在技术实现和应用推广中的主要障碍。

常用场景

经典使用场景

在历史文献数字化和手写体识别领域，mgr-birthdates数据集为研究者提供了一个独特的资源，用于训练和测试算法以识别丹麦教区记录中的出生日期。该数据集通过提供不同难度级别的测试集，使得研究者能够评估算法在处理复杂历史文档时的鲁棒性和准确性。

实际应用

在实际应用中，mgr-birthdates数据集被广泛用于开发自动化工具，以帮助图书馆、档案馆和博物馆快速准确地数字化和索引大量的历史记录。这不仅提高了数据检索的效率，还增强了历史研究的深度和广度。

衍生相关工作

基于mgr-birthdates数据集，研究者们已经开发出多种先进的日期识别算法，这些算法在多个国际手写体识别竞赛中取得了优异的成绩。此外，该数据集还激发了关于历史文档处理的新研究方向，如手写体风格分析和文档退化模型的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集