five

iluvvatar/NEREL

收藏
Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iluvvatar/NEREL
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ru multilinguality: - monolingual task_categories: - token-classification task_ids: - named-entity-recognition pretty_name: NEREL --- # NEREL dataset ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Structure](#dataset-structure) - [Citation Information](#citation-information) - [Contacts](#contacts) ## Dataset Description NEREL dataset (https://doi.org/10.48550/arXiv.2108.13112) is a Russian dataset for named entity recognition and relation extraction. NEREL is significantly larger than existing Russian datasets: to date it contains 56K annotated named entities and 39K annotated relations. Its important difference from previous datasets is annotation of nested named entities, as well as relations within nested entities and at the discourse level. NEREL can facilitate development of novel models that can extract relations between nested named entities, as well as relations on both sentence and document levels. NEREL also contains the annotation of events involving named entities and their roles in the events. You can see full entity types list in a subset "ent_types" and full list of relation types in a subset "rel_types". ## Dataset Structure There are three "configs" or "subsets" of the dataset. Using `load_dataset('MalakhovIlya/NEREL', 'ent_types')['ent_types']` you can download list of entity types ( Dataset({features: ['type', 'link']}) ) where "link" is a knowledge base name used in entity linking task. Using `load_dataset('MalakhovIlya/NEREL', 'rel_types')['rel_types']` you can download list of entity types ( Dataset({features: ['type', 'arg1', 'arg2']}) ) where "arg1" and "arg2" are lists of entity types that can take part in such "type" of relation. \<ENTITY> stands for any type. Using `load_dataset('MalakhovIlya/NEREL', 'data')` or `load_dataset('MalakhovIlya/NEREL')` you can download the data itself, DatasetDict with 3 splits: "train", "test" and "dev". Each of them contains text document with annotated entities, relations and links. "entities" are used in named-entity recognition task (see https://en.wikipedia.org/wiki/Named-entity_recognition). "relations" are used in relationship extraction task (see https://en.wikipedia.org/wiki/Relationship_extraction). "links" are used in entity linking task (see https://en.wikipedia.org/wiki/Entity_linking) Each entity is represented by a string of the following format: `"<id>\t<type> <start> <stop>\t<text>"`, where `<id>` is an entity id, `<type>` is one of entity types, `<start>` is a position of the first symbol of entity in text, `<stop>` is the last symbol position in text +1. Each relation is represented by a string of the following format: `"<id>\t<type> Arg1:<arg1_id> Arg2:<arg2_id>"`, where `<id>` is a relation id, `<arg1_id>` and `<arg2_id>` are entity ids. Each link is represented by a string of the following format: `"<id>\tReference <ent_id> <link>\t<text>"`, where `<id>` is a link id, `<ent_id>` is an entity id, `<link>` is a reference to knowledge base entity (example: "Wikidata:Q1879675" if link exists, else "Wikidata:NULL"), `<text>` is a name of entity in knowledge base if link exists, else empty string. ## Citation Information @article{loukachevitch2021nerel, title={NEREL: A Russian Dataset with Nested Named Entities, Relations and Events}, author={Loukachevitch, Natalia and Artemova, Ekaterina and Batura, Tatiana and Braslavski, Pavel and Denisov, Ilia and Ivanov, Vladimir and Manandhar, Suresh and Pugachev, Alexander and Tutubalina, Elena}, journal={arXiv preprint arXiv:2108.13112}, year={2021} }

--- 语言:俄语(ru) 多语言特性:单语言(monolingual) 任务类别:令牌分类(token-classification) 任务子项:命名实体识别(named-entity-recognition) 展示名称:NEREL --- # NEREL数据集 ## 目录 - [数据集概述](#dataset-description) - [数据集结构](#dataset-structure) - [引用信息](#citation-information) - [联系方式](#contacts) ## 数据集概述 NEREL数据集(https://doi.org/10.48550/arXiv.2108.13112)是一款面向俄语的命名实体识别(named entity recognition)与关系抽取(relation extraction)数据集。相较于现有俄语数据集,NEREL的规模更为庞大:截至目前,其包含5.6万个标注命名实体与3.9万个标注关系。与此前数据集的重要区别在于,该数据集支持嵌套命名实体的标注,同时支持嵌套实体间以及语篇层面的关系标注。NEREL可助力开发能够提取嵌套命名实体间关系,以及兼顾句子与文档层面关系的新型模型。此外,NEREL还包含涉及命名实体的事件标注,以及实体在事件中扮演的角色标注。 用户可在子集`ent_types`中查看完整的实体类型列表,在子集`rel_types`中查看完整的关系类型列表。 ## 数据集结构 本数据集包含三个“配置项”或称“子集”。 通过执行`load_dataset('MalakhovIlya/NEREL', 'ent_types')['ent_types']`,可下载实体类型列表(Dataset对象,特征包含`type`与`link`),其中`link`指代实体链接任务中使用的知识库名称。 通过执行`load_dataset('MalakhovIlya/NEREL', 'rel_types')['rel_types']`,可下载关系类型列表(Dataset对象,特征包含`type`、`arg1`与`arg2`),其中`arg1`与`arg2`为可参与该类型关系的实体类型列表,`<ENTITY>`代表任意实体类型。 通过执行`load_dataset('MalakhovIlya/NEREL', 'data')`或`load_dataset('MalakhovIlya/NEREL')`,可下载数据集本体,其为包含训练(train)、测试(test)与验证(dev)三个划分的数据集字典(DatasetDict)。 每个划分均包含带有标注实体、关系与链接的文本文档。 - 实体(entities)用于命名实体识别任务(详见https://en.wikipedia.org/wiki/Named-entity_recognition)。 - 关系(relations)用于关系抽取任务(详见https://en.wikipedia.org/wiki/Relationship_extraction)。 - 链接(links)用于实体链接任务(详见https://en.wikipedia.org/wiki/Entity_linking) 每个实体采用如下格式的字符串表示: `"<id> <type> <start> <stop> <text>"`,其中: `<id>`为实体编号, `<type>`为实体类型之一, `<start>`为实体文本在全文中的起始字符位置, `<stop>`为实体文本在全文中的结束字符位置加1。 每个关系采用如下格式的字符串表示: `"<id> <type> Arg1:<arg1_id> Arg2:<arg2_id>"`,其中: `<id>`为关系编号, `<arg1_id>`与`<arg2_id>`为实体编号。 每个链接采用如下格式的字符串表示: `"<id> Reference <ent_id> <link> <text>"`,其中: `<id>`为链接编号, `<ent_id>`为实体编号, `<link>`为指向知识库实体的引用(示例:若链接存在则为"Wikidata:Q1879675",若不存在则为"Wikidata:NULL"), `<text>`为链接存在时知识库实体的名称,否则为空字符串。 ## 引用信息 bibtex @article{loukachevitch2021nerel, title={NEREL: A Russian Dataset with Nested Named Entities, Relations and Events}, author={Loukachevitch, Natalia and Artemova, Ekaterina and Batura, Tatiana and Braslavski, Pavel and Denisov, Ilia and Ivanov, Vladimir and Manandhar, Suresh and Pugachev, Alexander and Tutubalina, Elena}, journal={arXiv preprint arXiv:2108.13112}, year={2021} } ## 联系方式 无
提供机构:
iluvvatar
原始信息汇总

NEREL 数据集概述

数据集描述

NEREL 数据集是一个俄语的命名实体识别和关系抽取数据集。该数据集包含56,000个标注的命名实体和39,000个标注的关系,显著大于现有的俄语数据集。NEREL数据集的显著特点包括:

  • 标注了嵌套的命名实体。
  • 标注了嵌套实体内部及话语层面的关系。
  • 包含事件标注,涉及命名实体及其在事件中的角色。

数据集结构

NEREL数据集分为三个子集(或称为“配置”):

  1. ent_types:包含实体类型列表,格式为Dataset({features: [type, link]}),其中"link"是实体链接任务中使用的知识库名称。
  2. rel_types:包含关系类型列表,格式为Dataset({features: [type, arg1, arg2]}),其中"arg1"和"arg2"是参与该类型关系的实体类型列表。
  3. data:包含数据本身,格式为DatasetDict,分为"train"、"test"和"dev"三个部分。每个部分包含带有标注的实体、关系和链接的文本文档。

实体、关系和链接的表示格式

  • 实体:"<id> <type> <start> <stop> <text>"
  • 关系:"<id> <type> Arg1:<arg1_id> Arg2:<arg2_id>"
  • 链接:"<id> Reference <ent_id> <link> <text>"

引用信息

@article{loukachevitch2021nerel,
title={NEREL: A Russian Dataset with Nested Named Entities, Relations and Events},
author={Loukachevitch, Natalia and Artemova, Ekaterina and Batura, Tatiana and Braslavski, Pavel and Denisov, Ilia and Ivanov, Vladimir and Manandhar, Suresh and Pugachev, Alexander and Tutubalina, Elena},
journal={arXiv preprint arXiv:2108.13112},
year={2021}
}

搜集汇总
数据集介绍
main_image_url
构建方式
NEREL数据集的构建基于对俄语文本的系统性标注,涵盖命名实体识别、关系抽取及实体链接三大任务。该数据集通过人工与自动化流程相结合的方式,对大量俄语新闻及百科文本进行精细标注,形成了包含56,000个命名实体与39,000个关系的丰富语料库。其独特之处在于标注了嵌套命名实体以及跨句子层面的文档级关系,同时整合了事件及其参与者角色的标注,为复杂语言现象的研究提供了结构化基础。
特点
NEREL数据集在俄语自然语言处理领域具有显著规模优势,其标注体系支持嵌套实体识别与多层次关系抽取,突破了传统数据集的扁平化结构限制。数据集不仅包含实体类型与关系类型的明确定义,还提供了实体链接至知识库(如Wikidata)的参照信息,增强了语义互联能力。这种多层次、细粒度的标注架构,为开发能够处理嵌套结构与跨句关系的先进模型奠定了数据基础。
使用方法
使用者可通过Hugging Face的`load_dataset`接口便捷获取NEREL数据集,其中`ent_types`与`rel_types`子集分别提供实体类型与关系类型的元数据,而`data`子集则包含训练、开发与测试划分的完整标注文本。数据以结构化字符串格式存储实体、关系及链接信息,可直接应用于命名实体识别、关系抽取与实体链接任务的模型训练与评估。该设计兼顾了易用性与灵活性,支持端到端的多任务学习流程。
背景与挑战
背景概述
NEREL数据集由俄罗斯研究团队于2021年发布,旨在推动俄语命名实体识别与关系抽取领域的发展。该数据集由Natalia Loukachevitch等学者主导构建,其核心研究问题聚焦于解决俄语文本中嵌套命名实体及跨句层关系的自动化抽取难题。相较于现有俄语资源,NEREL通过标注5.6万个命名实体与3.9万组关系,显著提升了数据规模与结构复杂性,为多层级语义理解模型提供了关键训练基础,对斯拉夫语系自然语言处理研究产生了深远影响。
当前挑战
NEREL数据集所针对的领域挑战在于俄语嵌套命名实体的边界模糊性与层级依赖关系识别,以及文档级跨句关系的连贯性建模。构建过程中的技术挑战涉及多维度标注体系的建立:需协调实体嵌套结构与关系网络的交叉标注一致性,同时整合实体链接至知识库的跨任务对齐。此外,俄语丰富的形态变化与句法自由语序特性,进一步增加了标注规范制定与数据质量控制的复杂度。
常用场景
经典使用场景
在俄语自然语言处理领域,NEREL数据集为命名实体识别与关系抽取任务提供了关键资源。其经典使用场景集中于训练和评估能够处理嵌套命名实体及跨句文档级关系的先进模型。通过提供大规模标注数据,该数据集支持研究者开发复杂算法,以精准识别文本中的实体层次结构,并挖掘实体间的语义关联,从而推动俄语信息提取技术的边界拓展。
解决学术问题
NEREL数据集有效解决了俄语自然语言处理中若干核心学术问题。它针对现有资源规模有限、缺乏嵌套实体标注的不足,提供了包含5.6万实体和3.9万关系的大规模标注语料。这一资源使得研究嵌套实体识别、文档级关系抽取以及事件角色标注成为可能,显著促进了跨语言信息提取模型的公平比较与性能提升,为俄语语义理解奠定了坚实基础。
衍生相关工作
围绕NEREL数据集,已衍生出一系列经典研究工作。学者们基于其嵌套实体和跨句关系特性,提出了多种联合学习框架与层级标注模型,以同时处理实体识别与关系抽取任务。这些工作不仅推动了俄语特定领域模型的创新,也为多语言NLP研究提供了可迁移的方法论,进一步丰富了信息提取领域的学术成果与技术实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作