AHISTO项目数据库

arXiv2023-06-07 更新2024-06-21 收录

下载链接：

https://nlp.fi.muni.cz/projects/ahisto/ner-resources

下载链接

链接失效反馈

官方服务：

资源简介：

AHISTO项目数据库是由捷克马萨里克大学的信息学院和文学院共同创建的，专注于收集和分析中世纪晚期的文本数据。该数据集包含4,182个摘要和872本书，总计3.6百万个句子，主要使用捷克语、拉丁语和德语。数据集的创建过程涉及使用光学字符识别（OCR）技术和专家标注，以自动引导命名实体识别（NER）标注的语料库。该数据集主要用于训练和评估历史文本中的命名实体识别模型，旨在解决历史文本处理中的语言差异和OCR错误问题，提高模型在历史文本上的性能。

The AHISTO Project Database was jointly created by the Faculty of Informatics and the Faculty of Arts of Masaryk University in the Czech Republic, focusing on the collection and analysis of late medieval textual data. This dataset contains 4,182 abstracts and 872 books, totaling 3.6 million sentences, and is primarily in Czech, Latin and German. The construction of this dataset involved the use of optical character recognition (OCR) technology and expert annotation, forming a corpus for automatically guided named entity recognition (NER) annotation. This dataset is mainly used for training and evaluating named entity recognition models on historical texts, aiming to address the problems of linguistic differences and OCR errors in historical text processing and improve the performance of models on historical texts.

提供机构：

信息学院，马萨里克大学，布尔诺，捷克共和国文学院，马萨里克大学，布尔诺，捷克共和国

创建时间：

2023-05-26

搜集汇总

数据集介绍

构建方式

在历史计算语言学领域，构建高质量标注语料库面临语言变异与光学字符识别错误的双重挑战。AHISTO项目数据库采用创新的自举式标注流程，以中世纪特许状摘要中人工标注的15,100个命名实体为种子，通过信息检索系统在360万句原始文本中自动定位实体出现位置。该流程利用Manatee库的布尔短语查询技术，结合词形还原与近似搜索策略，有效应对古文本的形态学变异与字符识别噪声，构建出包含捷克语、拉丁语和德语的多语言标注语料库体系。

特点

该数据集的核心特征体现在其规模与结构的双重优势。语料库包含360万句子，涵盖中世纪捷克语、拉丁语和德语三种主要历史语言，形成从微型到超大规模的五个分层语料集合。数据标注采用严格的嵌套实体标注规范，特别处理领土称谓与建筑奉献名称等复杂结构，并保留原始文本的光学字符识别错误以反映历史文档的真实状态。语料库设计兼顾当代语言分析与历史文本研究的双重需求，通过人工验证的测试集确保标注质量，为历史命名实体识别研究提供了前所未有的多语言、大规模基准资源。

使用方法

该数据集支持多层次的研究应用。在模型训练层面，研究者可利用分层语料库进行渐进式训练，通过Books-Small到Books-Huge的规模扩展探索数据量与模型性能的关系。评估体系包含严格的实体级精确度与召回率计算，支持严格匹配与模糊匹配双重评估机制，并特别设计了面向嵌套实体的评估方案。实践应用中，预训练的XLM-RoBERTa模型配合加权交叉熵损失函数，可有效解决历史文本中的类别不平衡问题。数据集遵循CC0许可协议开放获取，配套提供完整的训练代码与评估脚本，确保研究可复现性。

背景与挑战

背景概述

在历史计算语言学领域，中世纪文献的命名实体识别（NER）面临资源稀缺的挑战。AHISTO项目数据库由捷克马萨里克大学信息学院与文学院的研究团队于2023年构建，旨在从胡斯战争时期（1419–1436年）的欧洲中世纪特许状中提取结构化信息。该数据库包含约360万句多语言文本，主要涵盖捷克语、拉丁语和德语，通过结合光学字符识别（OCR）技术与信息检索方法，自动引导构建了大规模的银标准标注语料库。其核心研究问题聚焦于克服历史文本的语言变异与OCR错误，以提升命名实体识别的准确性与泛化能力，为数字人文研究提供了重要的数据基础与模型支持。

当前挑战

AHISTO项目数据库面临的挑战主要体现在两个方面：在领域问题层面，历史文本的命名实体识别需应对语言历时演变、拼写变异及多语言混杂带来的语义歧义，同时OCR过程引入的字符识别错误进一步降低了文本质量，增加了实体边界与类型判定的难度。在构建过程层面，自动标注管道的设计需克服初始标注数据稀缺的问题，研究团队通过信息检索技术从已知实体列表中引导扩展语料，但过程中仍面临类别不平衡、嵌套实体识别以及跨语言模型泛化能力不足等挑战，这些因素共同影响了最终模型的召回率与精确度。

常用场景

经典使用场景

在历史语言学与数字人文领域，AHISTO项目数据库为研究中世纪晚期文献的命名实体识别提供了关键资源。该数据库主要应用于训练和评估跨语言历史文本的NER模型，尤其针对胡斯战争时期（1419–1436）的欧洲特许状文献。研究者利用其包含的360万句多语言语料，能够有效解决历史文本因语言变异和OCR错误导致的实体识别难题，为深度挖掘中世纪社会网络与地理信息奠定基础。

衍生相关工作

该数据库催生了多项历史NER领域的创新研究，例如基于XLM-RoBERTa架构的多语言历史实体识别模型优化工作。相关方法被拓展至早期现代英语、法语及德语历史文本的实体识别任务中，验证了跨时代语言迁移的可行性。同时，其提出的加权损失函数与自动标注流程，为后续研究如斯拉夫语历史报纸NER、中世纪宪章多语言标注等提供了技术参照，形成了历史文本计算处理的方法论体系。

数据集最近研究