Multilingual named entity recognition for medieval charters. Datasets and models

NIAID Data Ecosystem2026-03-14 收录

下载链接：

https://zenodo.org/record/6463698

下载链接

链接失效反馈

官方服务：

资源简介：

Annotated dataset for training named entities recognition models for medieval charters in Latin, French and Spanish. The original raw texts for all charters were collected from four charters collections - HOME-ALCAR corpus : https://zenodo.org/record/5600884 - CBMA : http://www.cbma-project.eu - Diplomata Belgica : https://www.diplomata-belgica.be - CODEA corpus : https://corpuscodea.es/ We include (i) the annotated training datasets, (ii) the contextual and static embeddings trained on medieval multilingual texts and (iii) the named entity recognition models trained using two architectures: Bi-LSTM-CRF + stacked embeddings and fine-tuning on Bert-based models (mBert and RoBERTa) Codes, datasets and notebooks used to train models can be consulted in our gitlab repository: https://gitlab.com/magistermilitum/ner_medieval_multilingual Our best RoBERTa model is also available in the HuggingFace library: https://huggingface.co/magistermilitum/roberta-multilingual-medieval-ner

创建时间：

2023-01-16

5,000+

优质数据集

54 个

任务类型

进入经典数据集