NNE
收藏arXiv2019-06-04 更新2024-06-21 收录
下载链接:
https://github.com/nickyringland/nested named entities
下载链接
链接失效反馈官方服务:
资源简介:
NNE是一个大规模的嵌套命名实体数据集,由悉尼大学和CSIRO Data61创建,专注于英语新闻稿件中的细粒度命名实体识别。该数据集包含279,795个命名实体提及,涵盖114种实体类型,支持多达6层的嵌套结构。数据集的创建过程涉及定制的注释工具和详细的注释指南,确保了注释的一致性和准确性。NNE数据集的应用领域包括自然语言处理中的下游任务,如共指消解、问答、摘要等,旨在解决现有NER工具在处理嵌套实体结构时的局限性。
NNE is a large-scale nested named entity dataset developed by the University of Sydney and CSIRO Data61, focusing on fine-grained named entity recognition in English news articles. This dataset contains 279,795 named entity mentions, covers 114 entity types, and supports up to 6 layers of nested structures. The dataset construction process involved customized annotation tools and detailed annotation guidelines, ensuring the consistency and accuracy of annotations. Application scenarios of the NNE dataset include downstream natural language processing tasks such as coreference resolution, question answering, text summarization and others, aiming to address the limitations of existing NER tools when handling nested entity structures.
提供机构:
悉尼大学
创建时间:
2019-06-04
搜集汇总
数据集介绍

构建方式
NNE数据集的构建基于Penn Treebank的Wall Street Journal部分,通过精细的手动标注方式,涵盖了279,795个嵌套命名实体提及,涉及114种实体类型,最大嵌套层数达到6层。该数据集的构建过程从BBN数据集的平坦实体模式出发,通过分析现有标注,自动应用结构化预标注,并进一步细化了实体类型和结构元素,以增强实体间的嵌套关系。此外,NNE数据集还引入了新的类别以避免类别混淆,并通过一致的子结构标注来减少模糊性。
特点
NNE数据集的主要特点在于其精细的嵌套结构和丰富的实体类型,能够捕捉到实体间的复杂关系,如实体-实体关系、实体属性值嵌套以及部分-整体关系。数据集中的实体提及不仅包括顶层实体,还涵盖了多层次的嵌套结构,提供了对自然语言中命名实体的深度理解。此外,NNE数据集的标注过程经过严格的校验,确保了标注的一致性和可靠性,为研究嵌套命名实体识别提供了高质量的数据支持。
使用方法
NNE数据集适用于开发和评估嵌套命名实体识别模型,特别适合于需要处理复杂实体结构的自然语言处理任务,如共指消解、问答系统、摘要生成等。研究者可以使用该数据集训练和测试模型,探索如何有效处理嵌套实体的识别问题。数据集提供了详细的标注指南和脚本,便于研究者将标注整合到Penn Treebank语料库中,从而进行联合建模和多任务学习。
背景与挑战
背景概述
命名实体识别(NER)在自然语言处理领域中占据重要地位,广泛应用于下游任务如共指消解、问答系统等。然而,大多数现有的NER工具仅针对扁平结构进行标注,忽略了嵌套实体中蕴含的丰富语义信息。NNE数据集由悉尼大学和CSIRO Data61的研究团队于2019年创建,旨在填补这一空白。该数据集基于《华尔街日报》部分内容,包含279,795个嵌套命名实体标注,涵盖114种实体类型,最大嵌套层数达6层。NNE的发布为嵌套NER技术的研究提供了宝贵的资源,推动了相关领域的发展。
当前挑战
NNE数据集的构建面临多重挑战。首先,嵌套实体的识别与分类需要处理复杂的层次结构,这增加了模型的复杂性和计算成本。其次,标注过程中需确保一致性和准确性,尤其是在处理多义词和模糊实体时,标注者需依赖上下文和外部知识进行判断。此外,现有的大多数NER模型仅支持扁平结构,无法有效处理嵌套实体,这要求研究者开发新的技术来应对这一挑战。最后,尽管NNE数据集提供了丰富的标注信息,如何在高维度和多层次的标注中实现高效的模型训练和推理,仍是当前研究面临的重要问题。
常用场景
经典使用场景
NNE数据集在嵌套命名实体识别(Nested Named Entity Recognition, NER)任务中展现了其经典应用场景。该数据集通过精细的标注,捕捉了英语新闻语料中复杂的嵌套实体结构,如实体间的嵌套关系、属性值的嵌套以及部分与整体的关系。这些嵌套结构为下游任务如共指消解、问答系统、摘要生成等提供了丰富的语义信息,使得模型能够更准确地理解文本中的实体及其关系。
实际应用
NNE数据集在实际应用中具有广泛的应用场景。例如,在新闻自动化处理中,NNE可以帮助系统更精确地识别和分类新闻文本中的复杂实体,如政府机构、地理位置等,从而提升新闻摘要生成、事件追踪等任务的效率和准确性。此外,在知识图谱构建和实体链接任务中,NNE的嵌套实体标注能够帮助系统更好地理解实体间的复杂关系,提升知识图谱的质量和完整性。
衍生相关工作
NNE数据集的发布催生了一系列相关的经典工作。研究者们基于NNE数据集开发了多种嵌套NER模型,如超图方法、级联方法和解析方法等,这些模型在处理嵌套实体时表现出色。此外,NNE还促进了联合建模技术的发展,使得模型能够同时处理嵌套NER和其他自然语言处理任务,如语法分析和语义标注,从而推动了自然语言理解技术的整体进步。
以上内容由遇见数据集搜集并总结生成



