Chinese-Literature-NER-RE-Dataset

github2018-11-01 更新2024-05-31 收录

下载链接：

https://github.com/hinanmu/Chinese-Literature-NER-RE-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了一个新的中文文学数据集，用于命名实体识别（NER）和关系抽取（RE）。该数据集基于中文文学文本，定义了7个实体标签和9个关系标签，具有特定的中文文学文本类别。

We present a novel Chinese literature dataset designed for Named Entity Recognition (NER) and Relation Extraction (RE). This dataset is derived from Chinese literary texts and features 7 entity labels and 9 relation labels, tailored specifically to the nuances of Chinese literary genres.

创建时间：

2018-04-15

原始信息汇总

Chinese-Literature-NER-RE-Dataset 概述

数据集描述

名称: Chinese-Literature-NER-RE-Dataset
目的: 用于中文文学文本的命名实体识别（NER）和关系抽取（RE）
详细描述: 数据集的详细描述可在 arXiv 查看

标签集

实体标签: 定义了7种实体标签
关系标签: 定义了9种关系标签
特点: 基于现有NER和RE数据集，增加了特定于中文文学文本的类别

标注格式

实体标注

标识: 使用T标签
属性:
- Id: 文档内唯一标识，从0开始递增
- Type: 实体类型
- Begin Index: 实体起始索引
- End Index: 实体结束索引
- Value: 实体对应的文本

关系标注

标识: 使用R标签
属性:
- Id: 文档内唯一标识，从0开始递增
- Arg1, Arg2: 关系涉及的两个实体
- Type: 关系类型

搜集汇总

数据集介绍

构建方式

针对中文文学作品中的命名实体识别与关系抽取任务，构建者基于现有数据集的实体和关系标签，进一步细化并新增了适应中文文学文本特性的类别，形成了包含7种实体标签和9种关系标签的数据集。该数据集通过人工标注的方式，确保了标注质量与准确性，为研究者和开发者提供了丰富的实验资源。

特点

Chinese-Literature-NER-RE-Dataset数据集在传统命名实体和关系抽取的基础上，特别关注了中文文学文本的特质，引入了特定领域的实体和关系标签。该数据集具有标注细致、覆盖面广的特点，为中文文学处理领域的研究提供了珍贵的语料资源。

使用方法

使用该数据集时，用户需遵循其提供的标注格式，实体标注以T标签标记，包含实体唯一标识、类型、起始索引、终止索引及实体值等属性；关系标注以R标签标记，包括唯一标识、参与关系的两个实体标识及关系类型。用户可通过数据集提供的索引和标识，方便地定位和利用标注信息。

背景与挑战

背景概述

Chinese-Literature-NER-RE-Dataset是一个针对中文文学文本的语篇级命名实体识别和关系抽取数据集，创建于2017年。该数据集由Jingjing Xu、Ji Wen、Xu Sun和Qi Su等研究人员构建，旨在促进中文文学文本处理领域的发展。该数据集基于多个现有的命名实体识别和关系抽取数据集，特别针对中文文学文本的特点，定义了7个实体标签和9个关系标签，丰富了中文自然语言处理的研究内容，对相关领域产生了重要影响。

当前挑战

该数据集面临的挑战主要包括：1) 中文文学文本的特殊性使得实体和关系的识别与抽取更为复杂，如何精确识别和处理这些特定领域的实体与关系成为一大难题；2) 数据集构建过程中，如何确保标注质量，处理标注不一致性和减少人工标注的工作量也是重要挑战。

常用场景

经典使用场景

针对中国古代文学领域的研究，Chinese-Literature-NER-RE-Dataset数据集被广泛应用于命名实体识别与关系抽取任务。通过该数据集，研究者可以训练模型以识别文本中的特定实体，如人物、地点、时间等，并抽取实体间的关系，为深入分析文学作品的结构与内容提供技术支持。

衍生相关工作

基于该数据集，研究者已开展了一系列相关工作，如开发了用于文学文本分析的深度学习模型，以及构建了结合知识图谱的文学研究平台，进一步拓宽了文学研究的范围和方法，促进了跨学科研究的融合与发展。

数据集最近研究