Chinese-Literature-NER-RE-Dataset

github2020-04-01 更新2024-05-31 收录

下载链接：

https://github.com/brightgems/Chinese-Literature-NER-RE-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于中文文学文本的语篇级命名实体识别和关系抽取数据集。

A discourse-level Named Entity Recognition and Relation Extraction dataset for Chinese literary texts.

创建时间：

2019-10-04

原始信息汇总

数据集概述

数据集名称

Chinese-Literature-NER-RE-Dataset

数据集目的

用于中文文学文本的命名实体识别（NER）和关系抽取（RE）。

数据集描述

数据集详情描述于arXiv文章。

标签设置

实体标签：定义了7种实体标签。
关系标签：定义了9种关系标签。

标注格式

实体标注

T标签：标识实体。
- Id：实体在文档中的唯一编号，从0开始，每新增一个实体递增。
- Type：实体类型，对应实体标签之一。
- Begin Index：实体起始索引，从0开始，每字符递增。
- End Index：实体结束索引，从0开始，每字符递增。
- Value：标识的可识别对象的词。

关系标注

R标签：标识关系。
- Id：关系在文档中的唯一编号，从0开始，每新增一个关系递增。
- Arg1 和 Arg2：关联的两个实体。
- Type：关系类型，对应关系标签之一。

引用信息

作者：Jingjing Xu, Ji Wen, Xu Sun, Qi Su
标题：A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text
发表年份：2017
链接：arXiv文章链接

搜集汇总

数据集介绍

构建方式

针对中国文学文本中的命名实体识别和关系抽取任务，研究者构建了一套名为Chinese-Literature-NER-RE-Dataset的数据集。该数据集的构建基于对现有命名实体识别和关系抽取数据集的深入分析，并针对中国文学文本的特殊性，增设了若干类别标签。数据集涵盖了七种实体标签和九种关系标签，旨在全面反映中国文学文本中的实体与实体间的关系网络。

特点

该数据集的主要特点是针对中国文学文本进行了专门的实体和关系标注。实体标注采用T标签，包含了实体的唯一标识、类型、起始索引、终止索引和实体值等属性。关系标注则采用R标签，包括关系的唯一标识、参与关系的两个实体以及关系类型。这些标注使得数据集能够为研究者提供丰富的信息，以利于深入分析和模型训练。

使用方法

使用该数据集时，研究者可以依据标注格式，对文本进行实体和关系的识别与抽取。数据集以文档的形式提供，每个文档中的实体和关系均通过相应的标签和属性进行标识。用户可以通过解析这些标签和属性，提取出所需的实体和关系信息，进而用于模型训练或进一步的分析研究。

背景与挑战

背景概述

Chinese-Literature-NER-RE-Dataset，这是一个针对中文文学作品进行命名实体识别和关系抽取任务的数据集，由北京大学的研究团队在2017年创建。该数据集基于多个现有的命名实体识别和关系抽取数据集，并根据中文文学文本的特定需求，定义了7种实体标签和9种关系标签，旨在推进中文文学领域内的自然语言处理研究，对相关领域产生了显著的影响。

当前挑战

该数据集在解决中文文学文本的命名实体识别和关系抽取问题的同时，面临着以下挑战：首先，文学作品中的命名实体和关系抽取相较于通用文本更为复杂，涉及到的实体类型和关系类型更为丰富和多样；其次，构建过程中，如何准确地标注实体和关系，以及如何处理文学作品中的语言特性，如比喻、象征等，都是需要克服的难题。

常用场景

经典使用场景

针对中国文学文本的篇章级别命名实体识别与关系抽取任务，Chinese-Literature-NER-RE-Dataset数据集提供了丰富的标注实例。该数据集将文本中的实体和实体间的关系进行标注，使得研究者能够基于此开展模型训练与评估工作，进而提高篇章级别文本处理的能力。

实际应用

在文学研究、文本挖掘和自然语言处理等领域，Chinese-Literature-NER-RE-Dataset数据集的实际应用价值显著。它不仅有助于提升文献分析、内容理解的自动化水平，也为文学作品的数字化处理与知识图谱构建提供了重要资源。

衍生相关工作

基于该数据集，研究者们已经开展了一系列相关工作，包括但不限于篇章级别的实体识别与关系抽取模型、跨领域实体关系抽取方法以及文学文本的深度学习处理技术，这些工作进一步拓展了数据集的应用范围，丰富了中文自然语言处理领域的研究内容。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集