Deutscher Reichsanzeiger und Preußischer Staatsanzeiger

github2024-04-28 更新2024-05-31 收录

下载链接：

https://github.com/UB-Mannheim/reichsanzeiger-nlp

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对1819至1939年间德国历史报纸Deutscher Reichsanzeiger und Preußischer Staatsanzeiger的NER/NEL语料库，旨在基于OCR基础数据创建NLP真实语料库。

本语料库针对1819年至1939年间发行的德国历史报纸《德意志帝国公报》与《普鲁士州公报》，系一项命名实体识别与命名实体链接（NER/NEL）语料库工程。该工程旨在以光学字符识别（OCR）基础数据为基石，构建一个真实自然语言处理（NLP）语料库。

创建时间：

2022-09-21

原始信息汇总

数据集概述：Reichsanzeiger NLP

数据集目标

创建基于历史报纸《Deutscher Reichsanzeiger und Preußischer Staatsanzeiger》（1819-1945）的NLP基础真值语料库。

数据处理步骤

文本转换：将未处理的文本行从PAGE XML文件转换为TXT文件。
去除连字符和换行：从PAGE XML文件中去除连字符和换行，保存为纯文本TXT文件。
句子分割：将无换行和连字符的纯文本分割成句子，保存为每句一行的TSV文件。
手动校正句子分割：手动校正句子分割并移除噪声数据（如表格）。
导入INCEpTION：将纯文本（每句一行）导入INCEpTION。
创建标注指南：基于现有历史德语文本标注指南和Reichsanzeiger样本页分析，迭代开发标注指南。
创建标签集和标注层：在INCEpTION中根据标注指南创建标签集和标注层。
标注文本：根据标注指南标注纯文本。
导出标注：从INCEpTION导出标注，格式包括UIMA CAS XMI。
创建转换器：创建从XMI到IOB格式的转换器，将XMI文件转换为IOB文件。

标注软件

使用INCEpTION作为主要标注软件，通过比较测试，INCEpTION被选为最先进的工具。

相关工作

HIPE竞赛：关于历史文本的识别历史人物、地点和其他实体的竞赛。
现有NER/NEL语料库：包括AjMC、HIPE-2020、Newseye和SoNAR等，涉及报纸和评论，覆盖19世纪至20世纪中叶。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于历史报纸《Deutscher Reichsanzeiger und Preußischer Staatsanzeiger》（1819-1945）的OCR数据，由曼海姆大学图书馆（UB Mannheim）扫描并进行OCR处理。首先，从PAGE XML文件中提取未处理的文本行，并将其转换为TXT文件。随后，去除文本中的连字符和换行符，生成无连字符的纯文本文件。接着，将这些文本分割成句子，并保存为每行一个句子的TSV文件。最后，通过手动校正句子分割并去除噪声数据，如表格，确保数据质量。整个过程还包括使用INCEpTION进行标注，并根据标注指南创建标签集和标注层，最终导出为XMI格式并转换为IOB格式。

使用方法

该数据集可用于多种自然语言处理任务，尤其是历史文本的命名实体识别和链接。用户可以通过加载IOB格式的数据进行模型训练，或直接使用已标注的数据进行分析。此外，数据集的TSV文件格式便于导入到各种NLP工具中进行进一步处理。对于需要进行历史文本分析的研究者，该数据集提供了高质量的标注数据，能够有效支持相关研究。

背景与挑战

背景概述

Deutscher Reichsanzeiger und Preußischer Staatsanzeiger数据集，源自1819年至1945年间出版的历史报纸，由曼海姆大学图书馆（UB Mannheim）扫描并进行OCR处理。该数据集的核心研究目标是构建一个基于历史文本的自然语言处理（NLP）基准语料库，旨在推动历史文本的实体识别与链接（NER/NEL）研究。通过将OCR生成的原始文本进行预处理、去连字符、分句及手动校正，数据集为历史德语文本的语义分析提供了高质量的基础数据。该数据集的创建不仅填补了历史德语文本NLP领域的空白，还为相关研究提供了宝贵的资源，推动了历史文本处理技术的发展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，历史文本的OCR处理质量较低，导致原始文本中存在大量噪声，如错误的连字符和行断裂，需通过手动校正进行清理。其次，历史德语的语法和词汇与现代德语存在显著差异，增加了分词和句法分析的难度。此外，数据集的标注工作复杂，需制定详细的标注指南，并进行多轮校对以确保标注的一致性和准确性。最后，历史文本的实体识别与链接任务本身具有高度复杂性，涉及大量稀有实体和模糊上下文，这对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

Deutscher Reichsanzeiger und Preußischer Staatsanzeiger数据集的经典使用场景主要集中在历史文本的自然语言处理（NLP）任务中。该数据集通过提供经过OCR处理的历史报纸文本，支持研究人员进行命名实体识别（NER）和实体链接（NEL）等任务。这些任务对于从历史文献中提取关键信息、识别历史人物、地点和事件具有重要意义，尤其是在处理19世纪至20世纪初的德语文本时。

解决学术问题

该数据集解决了历史文本处理中的多个学术研究问题，特别是在处理古德语文本时面临的挑战。通过提供高质量的OCR文本和手动校正的句子分割，该数据集为研究人员提供了一个可靠的基础，用于训练和评估NER/NEL模型。这不仅有助于提高历史文本的自动化处理能力，还为历史学、语言学等领域的研究提供了新的工具和方法。

实际应用

在实际应用中，Deutscher Reichsanzeiger und Preußischer Staatsanzeiger数据集可用于构建历史事件数据库、自动生成历史人物传记、以及进行历史文本的语义分析。例如，图书馆和档案馆可以利用该数据集来改进历史文献的数字化和索引过程，从而更有效地服务于学术研究和公众查询。此外，该数据集还可用于开发智能搜索工具，帮助用户在海量历史文献中快速定位相关信息。

数据集最近研究