SlavicNER Corpus

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/SlavicNLP/SlavicNER

下载链接

链接失效反馈

官方服务：

资源简介：

本论文介绍了一个针对六种斯拉夫语言（保加利亚语、捷克语、波兰语、斯洛文尼亚语、俄语和乌克兰语）手动标注的命名实体语料库。这项工作是2017年至2023年作为斯拉夫自然语言处理研讨会的一部分进行的系列共享任务的结果。该语料库包含5,017份关于七个主题的文档。文档被标注有五类命名实体。每个实体都由一个类别、一个词干和一个唯一的跨语言标识符描述。我们提供了两个训练-调整数据集分割——单一主题和跨主题。对于每个分割，我们使用预训练的多语言模型——XLM-RoBERTa-large用于命名实体提及识别和分类，以及mT5-large用于命名实体词干化和链接，设置了基准。

This paper introduces a manually annotated named entity corpus for six Slavic languages (Bulgarian, Czech, Polish, Slovenian, Russian, and Ukrainian). This work is the result of a series of shared tasks conducted as part of the Slavic Natural Language Processing Workshop from 2017 to 2023. The corpus contains 5,017 documents across seven topics. The documents are annotated with five categories of named entities. Each entity is described by a category, a stem, and a unique cross-lingual identifier. We provide two training-adjustment dataset splits—single-topic and cross-topic. For each split, we established benchmarks using pre-trained multilingual models—XLM-RoBERTa-large for named entity mention recognition and classification, and mT5-large for named entity stemming and linking.

创建时间：

2024-03-25

原始信息汇总

数据集概述

数据集名称

SlavicNER

数据集描述

目的: 为斯拉夫语言提供跨语言命名实体语料库。
内容: 包含六种斯拉夫语言（保加利亚语、捷克语、波兰语、斯洛文尼亚语、俄语、乌克兰语）的5,017份文档，覆盖七个主题。
标注: 文档中标注了五类命名实体，每个实体包含类别、词形和唯一的跨语言标识符。
数据集结构: 提供两种训练-调整数据集分割——单一主题和跨主题。

引用信息

作者: Jakub Piskorski, Michał Marcińczuk, Roman Yangarber
出版信息: 2024年5月，在意大利都灵举行的2024年计算语言学、语言资源和评估联合国际会议(LREC-COLING 2024)上发表。
出版商: ELRA和ICCL
论文页码: 4143-4157
论文摘要: 介绍了数据集的构建背景、方法和应用，强调了其在斯拉夫语言处理中的重要性。

搜集汇总

数据集介绍

构建方式

SlavicNER Corpus的构建基于对六种斯拉夫语言（保加利亚语、捷克语、波兰语、斯洛文尼亚语、俄语和乌克兰语）的手动命名实体标注。该数据集通过一系列共享任务积累而成，涵盖了2017年至2023年间的斯拉夫自然语言处理研讨会。数据集包含5,017份文档，涉及七个主题，并标注了五类命名实体。每个实体不仅被赋予类别，还附有词形和跨语言唯一标识符，确保了数据的多语言一致性和可比性。

特点

SlavicNER Corpus的显著特点在于其跨语言的命名实体标注，涵盖了多种斯拉夫语言，且每个实体均具备详细的类别、词形和跨语言标识符。此外，数据集提供了两种训练-调优数据划分方式：单一主题划分和跨主题划分，为不同研究需求提供了灵活性。基于这些特点，该数据集为跨语言命名实体识别与分类任务提供了坚实的基础。

使用方法

使用SlavicNER Corpus时，研究者可选择两种数据划分方式进行模型训练与调优。数据集支持基于Transformer的神经网络架构，如XLM-RoBERTa-large用于命名实体提及识别与分类，mT5-large用于词形化和链接任务。研究者可通过Hugging Face平台获取基线模型，并根据具体需求调整模型参数，以实现高效的跨语言命名实体处理。

背景与挑战

背景概述

斯拉夫语系作为世界上重要的语言家族之一，其自然语言处理（NLP）研究长期以来面临资源匮乏的挑战。为填补这一空白，SlavicNER Corpus于2024年由Jakub Piskorski、Michał Marcińczuk和Roman Yangarber等研究人员共同创建，旨在为保加利亚语、捷克语、波兰语、斯洛文尼亚语、俄语和乌克兰语等六种斯拉夫语言提供跨语言的命名实体识别资源。该数据集通过一系列共享任务（2017-2023年）积累而成，包含5,017篇文档，涵盖七个主题，并标注了五类命名实体。其核心研究问题在于如何通过跨语言的标注和模型训练，提升斯拉夫语言在命名实体识别任务中的表现，进而推动该领域的技术进步。

当前挑战

SlavicNER Corpus的构建面临多重挑战。首先，斯拉夫语言的形态复杂性和语言间的显著差异使得跨语言标注和识别任务极具挑战性。其次，数据集的构建过程中，研究人员需克服不同语言间的词汇和语法差异，确保标注的一致性和准确性。此外，为实现跨语言的实体链接，数据集引入了跨语言标识符和词形还原任务，这对模型的泛化能力和计算资源提出了更高要求。最后，尽管该数据集已为斯拉夫语言的命名实体识别设定了基准，但如何在资源有限的情况下进一步提升模型的性能，仍是未来研究的重要方向。

常用场景

经典使用场景

SlavicNER Corpus 作为一种跨语言的斯拉夫语命名实体语料库，其经典使用场景主要集中在多语言命名实体识别与分类任务中。该数据集通过提供六种斯拉夫语言（保加利亚语、捷克语、波兰语、斯洛文尼亚语、俄语和乌克兰语）的命名实体标注，使得研究者能够在跨语言环境下进行实体识别与分类的模型训练与评估。其独特的跨语言标识符设计，进一步促进了多语言实体链接与消歧的研究。

衍生相关工作

基于 SlavicNER Corpus，研究者们开发了多种跨语言命名实体识别模型，并提出了多种改进方法。例如，利用该数据集训练的 XLM-RoBERTa-large 模型在多语言实体识别任务中取得了显著的性能提升。此外，该数据集还激发了关于多语言实体链接和跨语言消歧的研究，推动了相关领域的技术进步。许多研究工作通过对比不同语言的实体识别效果，进一步优化了跨语言模型的设计与实现。

数据集最近研究

SlavicNER Corpus

数据集概述

数据集名称

数据集描述

相关资源

引用信息