NEMO-Corpus

github2021-12-27 更新2024-05-31 收录

下载链接：

https://github.com/OnlpLab/NEMO-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

NEMO-Corpus是一个包含希伯来语语料库的命名实体标注数据集，包括词素和词级别的NER标签、嵌套提及等。数据集支持多种标注格式和实体类别，适用于研究形态丰富的语言中的NER任务。

The NEMO-Corpus is a named entity recognition (NER) annotated dataset comprising a Hebrew language corpus, which includes morpheme and word-level NER tags, nested mentions, and more. The dataset supports various annotation formats and entity categories, making it suitable for research on NER tasks in morphologically rich languages.

创建时间：

2021-05-04

原始信息汇总

数据集概述

数据集名称

NEMO-Corpus - The Hebrew Named Entities and Morphology Corpus

数据集内容

NER 标注：来自 Haaretz 报纸的 Hebrew Treebank 语料库的命名实体识别（NER）标注。
标注级别：包括词素和词级别的 NER 标签，以及嵌套提及。

主要特点

多级标注：提供词素、单字词和多字词序列标签。
标注格式：所有标注采用 BIOSE 格式。
实体类别：使用广泛接受的 OntoNotes 实体类别集。
版本兼容性：包含 UD 和 SPMRL 两个主要版本的 Hebrew Treebank 的 NER 标注。
嵌套提及：提供嵌套提及的标注。
标注指南：提供详细的标注指南。
双语标注者：由两名具有学术背景的母语为希伯来语的标注者完成，并由项目经理审核。
标注工具：使用 WebAnno 进行标注。

文件结构

数据文件夹：主要包含 ud 和 spmrl 两个文件夹，分别对应不同的 Hebrew Treebank 版本。
黄金标注：每个版本下都有 gold 文件夹，包含训练、开发和测试集的黄金标注文件。
嵌套标注：gold 文件夹下还有 nested 子文件夹，包含所有嵌套提及的层级。
原始标注：ud 文件夹下包含 ab_annotators 和 pilot_annotations 文件夹，存储原始标注数据。

基本统计数据

训练/开发/测试集：分别包含 4,937/500/706 个句子。
实体类型统计：详细列出了各类实体（如人名、组织、地名等）在不同数据集中的数量。

版本对齐

对齐版本：与 bclm v1.0.0 版本的 Hebrew Treebank 对齐，确保数据一致性。

评估

评估脚本：提供评估脚本和评估指南，位于 NEMO 代码仓库中。

引用信息

引用文献：提供了三篇相关文献的引用信息，包括 NEMO 论文和 Hebrew Treebank 的相关描述。

搜集汇总

数据集介绍

构建方式

NEMO-Corpus的构建基于希伯来树库（Hebrew Treebank）的命名实体识别（NER）标注，涵盖了词素和词级别的NER标签以及嵌套提及。该数据集由两名母语为希伯来语的学术背景人员通过WebAnno工具进行标注，并由项目负责人进行审核。标注过程中采用了BIOSE格式，并提供了详细的标注指南。数据集还包含了两个主要版本的希伯来树库（UD和SPMRL）的NER标注，确保了数据的多样性和广泛适用性。

特点

NEMO-Corpus的特点在于其多层次的标注体系，包括词素、单标记和多标记序列的标签。词素标签提供了精确的边界信息，而多标记标签则提供了部分子词的形态信息。数据集还包含了广泛使用的OntoNotes实体类别集，如GPE、PER、LOC等。此外，NEMO-Corpus支持嵌套提及，并提供了原始标注者的标注数据，以促进基于分歧的学习研究。

使用方法

NEMO-Corpus的使用方法包括加载和处理UD和SPMRL版本的树库数据。用户可以通过bclm工具读取数据框，并移除重复的句子以确保数据的一致性。数据集中的NER标签存储在`biose_layer0`、`biose_layer1`等列中，用户可以根据需要提取和使用这些标签。此外，NEMO代码库中提供了评估脚本和详细的评估说明，帮助用户进行模型训练和性能评估。

背景与挑战

背景概述

NEMO-Corpus是由以色列的研究团队开发的一个希伯来语命名实体识别（NER）和形态学标注数据集，首次发布于2021年。该数据集基于希伯来树库（Hebrew Treebank），包含了来自Haaretz报纸的文本，并提供了词素和词级别的NER标注、嵌套提及等多种标注信息。NEMO-Corpus的创建旨在解决形态丰富的语言（MRLs）中命名实体识别的挑战，特别是当命名实体的边界与词素边界不一致时。该数据集在《Neural Modeling for Named Entities and Morphology (NEMO²)》一文中首次提出，并通过实验展示了形态边界在NER任务中的重要性。NEMO-Corpus的发布为希伯来语的NER和形态学分析提供了新的研究基准，推动了相关领域的发展。

当前挑战

NEMO-Corpus面临的挑战主要集中在两个方面。首先，希伯来语作为一种形态丰富的语言，其命名实体的边界往往与词素边界不一致，这为NER任务带来了额外的复杂性。传统的基于词级别的NER模型在处理此类语言时表现不佳，因此需要开发新的模型架构来有效捕捉形态边界信息。其次，数据集的构建过程中也面临诸多挑战，包括如何准确标注嵌套提及、如何处理词素与词之间的不对齐问题，以及如何确保标注的一致性和准确性。尽管NEMO-Corpus提供了丰富的标注信息，但如何利用这些信息进一步提升NER模型的性能，仍然是当前研究中的一个重要挑战。

常用场景

经典使用场景

NEMO-Corpus数据集在希伯来语命名实体识别（NER）领域具有重要应用价值。该数据集通过提供词素、单标记和多标记序列的标注，支持对希伯来语这种形态丰富语言的命名实体边界进行精确建模。其标注格式采用BIOSE标准，涵盖了广泛使用的OntoNotes实体类别，如地理政治实体（GPE）、人名（PER）、地点（LOC）等。NEMO-Corpus的经典使用场景包括希伯来语文本的NER模型训练与评估，尤其是在形态边界对NER性能影响的研究中发挥了关键作用。

解决学术问题

NEMO-Corpus解决了形态丰富语言中命名实体识别的核心挑战，即实体边界与词素边界不一致的问题。通过提供词素级和标记级的并行标注，该数据集为研究形态边界对NER性能的影响提供了实验基础。其研究成果表明，显式建模形态边界可显著提升NER性能，并为希伯来语NER和形态分解任务设定了新的性能基准。这一突破为其他形态丰富语言的NER研究提供了重要参考。

衍生相关工作

NEMO-Corpus的发布推动了希伯来语NER及相关领域的研究进展。基于该数据集，研究者提出了多种混合架构模型，如NER优先并修剪形态分解的模型，显著提升了希伯来语NER和形态分解的性能。此外，该数据集还促进了学习分歧标注（learning with disagreements）的研究，为处理标注不一致性问题提供了新的思路。NEMO-Corpus的标注指南和开源代码也为后续研究提供了标准化工具和方法论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集