Nuremberg Letterbooks
收藏arXiv2024-11-12 更新2024-11-13 收录
下载链接:
https://zenodo.org/records/13881575
下载链接
链接失效反馈官方服务:
资源简介:
Nuremberg Letterbooks数据集由弗里德里希-亚历山大-埃尔朗根-纽伦堡大学创建,包含15世纪初的历史文档,共计1711页,由10位抄写员书写。数据集提供了三种类型的转录:基本转录、外交转录和规范化转录,旨在满足不同研究领域的需求。数据集的创建过程包括文档数字化、手动标注转录和元数据,以及多次校正和验证。该数据集主要应用于历史文档分析和手写文本识别,旨在解决历史文档数字化与人文研究需求之间的差距。
The Nuremberg Letterbooks dataset was created by Friedrich-Alexander University Erlangen-Nuremberg. It contains historical documents from the early 15th century, totaling 1711 pages, which were written by 10 scribes. The dataset provides three types of transcriptions: basic transcription, diplomatic transcription, and normalized transcription, designed to meet the needs of different research fields. The dataset's creation process includes document digitization, manual annotation of transcriptions and metadata, as well as multiple rounds of correction and verification. This dataset is mainly applied in historical document analysis and handwritten text recognition, aiming to bridge the gap between the digitization of historical documents and the demands of humanities research.
提供机构:
弗里德里希-亚历山大-埃尔朗根-纽伦堡大学
创建时间:
2024-11-12
搜集汇总
数据集介绍

构建方式
Nuremberg Letterbooks数据集的构建始于对15世纪早期历史手稿的数字化处理。首先,通过半自动化的页面分割技术,将扫描的双页文档分离为单页。随后,利用CITLab高级功能进行行分割,确保文本区域的准确识别。在手动标注阶段,专家团队为每行文本创建了三种类型的转录:基本转录、外交转录和规范化转录。这些转录不仅包括文本内容,还附有如书写者ID等元数据。最后,通过多次校正和验证,确保数据集的准确性和一致性。
使用方法
Nuremberg Letterbooks数据集适用于多种文档分析任务,包括手写文本识别和书写者识别。研究者可以通过访问Zenodo平台下载数据集,并利用提供的GitHub代码库进行数据加载和模型训练。数据集的多样性转录格式使其适用于训练能够处理不同类型转录的模型,从而更好地服务于人文学科的研究需求。通过结合历史文档的数字化和自动转录技术,该数据集为深入探索历史文本提供了坚实的基础。
背景与挑战
背景概述
在历史文献数字化与手写文本识别领域,如何弥合仅扫描古籍与真正理解和利用其内容之间的鸿沟,是一个重大挑战。尽管数字化使得这些文本更易获取,但并不意味着它们对各种研究目的都具有可理解性和可用性。Nuremberg Letterbooks数据集,由Friedrich-Alexander-Universität Erlangen-Nürnberg的研究团队创建,旨在解决这一问题。该数据集包含15世纪早期的历史文档,提供了多种类型的转录和伴随的元数据,以满足不同研究领域的需求。通过提供基本、外交和规范化三种转录方式,该数据集不仅支持计算机科学中的文本识别模型训练,还满足了德国研究学者和历史学家对原始文本细节和文化背景的需求。
当前挑战
Nuremberg Letterbooks数据集在构建过程中面临多项挑战。首先,历史文档的数字化和转录过程复杂,需要高度专业化的知识和技能。其次,不同研究领域对转录文本的需求各异,如何平衡这些需求并提供多样化的转录版本是一个难题。此外,手写文本识别和作者识别的技术验证也面临挑战,特别是在处理复杂的文本格式和多样化的作者风格时。最后,确保数据集的准确性和一致性,以及为未来研究提供可靠的基准,也是该数据集需要克服的重要问题。
常用场景
经典使用场景
在历史文献数字化与手写文本识别领域,Nuremberg Letterbooks数据集以其独特的多重转录方式和丰富的元数据,成为研究早期15世纪手稿的重要资源。该数据集包含四种书籍,共计1711页,由10位抄写员书写,提供了基本、外交和规范化三种转录版本。这些转录版本不仅满足了计算机科学家对手写文本识别模型的训练需求,还为德国语言学和历史学研究提供了高保真度的文本,使得研究人员能够深入探索历史文献的细微差别和文化背景。
解决学术问题
Nuremberg Letterbooks数据集通过提供多样化的转录方法,解决了历史文献数字化中的一个关键问题:如何在不失真的前提下,将古代手稿转化为可用于多学科研究的数字文本。该数据集的多样化转录版本,使得不同领域的学者可以根据其研究需求选择合适的文本形式,从而推动了历史学、语言学和计算机科学等多个学科的交叉研究。此外,数据集中的元数据和抄写员信息,为手写文本识别和抄写员识别提供了宝贵的训练数据,有助于提升相关技术的准确性和可靠性。
实际应用
在实际应用中,Nuremberg Letterbooks数据集为历史文献的数字化和自动化处理提供了坚实的基础。通过该数据集,研究人员可以开发出能够处理不同转录版本的自动化文本识别模型,从而大大提高历史文献的数字化效率。此外,数据集中的抄写员信息和文本特征,也为历史学研究提供了新的视角,使得研究人员能够更深入地分析历史文献的作者风格和时代特征。这些应用不仅提升了历史文献的可访问性和可理解性,还为文化遗产的保护和传承提供了技术支持。
数据集最近研究
最新研究方向
在历史文献数字化与手写文本识别领域,Nuremberg Letterbooks数据集通过提供多类型的转录和伴随的元数据,填补了标准化标签与人文研究需求之间的空白。该数据集不仅包含基本转录,还提供了外交和规范化转录,以满足不同研究领域的特定需求。这种多样化的转录方法使得数据集在前沿研究中具有重要意义,特别是在开发能够处理不同类型转录的模型方面。随着档案中扫描文档数量的持续增长,多样化的自动转录方法变得愈发重要,这些模型能够极大地辅助人文研究者,使他们能够无需额外调整即可访问数字化文本。因此,该数据集不仅为历史研究提供了宝贵的资源,还为开发更符合人文研究需求的模型奠定了基础。
相关研究论文
- 1Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis弗里德里希-亚历山大-埃尔朗根-纽伦堡大学 · 2024年
以上内容由遇见数据集搜集并总结生成



