Chinese-Literature-NER-RE-Dataset
收藏github2018-11-01 更新2024-05-31 收录
下载链接:
https://github.com/hinanmu/Chinese-Literature-NER-RE-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们提供了一个新的中文文学数据集,用于命名实体识别(NER)和关系抽取(RE)。该数据集基于中文文学文本,定义了7个实体标签和9个关系标签,具有特定的中文文学文本类别。
We present a novel Chinese literature dataset designed for Named Entity Recognition (NER) and Relation Extraction (RE). This dataset is derived from Chinese literary texts and features 7 entity labels and 9 relation labels, tailored specifically to the nuances of Chinese literary genres.
创建时间:
2018-04-15
原始信息汇总
Chinese-Literature-NER-RE-Dataset 概述
数据集描述
- 名称: Chinese-Literature-NER-RE-Dataset
- 目的: 用于中文文学文本的命名实体识别(NER)和关系抽取(RE)
- 详细描述: 数据集的详细描述可在 arXiv 查看
标签集
- 实体标签: 定义了7种实体标签
- 关系标签: 定义了9种关系标签
- 特点: 基于现有NER和RE数据集,增加了特定于中文文学文本的类别
标注格式
实体标注
- 标识: 使用T标签
- 属性:
- Id: 文档内唯一标识,从0开始递增
- Type: 实体类型
- Begin Index: 实体起始索引
- End Index: 实体结束索引
- Value: 实体对应的文本
关系标注
- 标识: 使用R标签
- 属性:
- Id: 文档内唯一标识,从0开始递增
- Arg1, Arg2: 关系涉及的两个实体
- Type: 关系类型
搜集汇总
数据集介绍

构建方式
针对中文文学作品中的命名实体识别与关系抽取任务,构建者基于现有数据集的实体和关系标签,进一步细化并新增了适应中文文学文本特性的类别,形成了包含7种实体标签和9种关系标签的数据集。该数据集通过人工标注的方式,确保了标注质量与准确性,为研究者和开发者提供了丰富的实验资源。
特点
Chinese-Literature-NER-RE-Dataset数据集在传统命名实体和关系抽取的基础上,特别关注了中文文学文本的特质,引入了特定领域的实体和关系标签。该数据集具有标注细致、覆盖面广的特点,为中文文学处理领域的研究提供了珍贵的语料资源。
使用方法
使用该数据集时,用户需遵循其提供的标注格式,实体标注以T标签标记,包含实体唯一标识、类型、起始索引、终止索引及实体值等属性;关系标注以R标签标记,包括唯一标识、参与关系的两个实体标识及关系类型。用户可通过数据集提供的索引和标识,方便地定位和利用标注信息。
背景与挑战
背景概述
Chinese-Literature-NER-RE-Dataset是一个针对中文文学文本的语篇级命名实体识别和关系抽取数据集,创建于2017年。该数据集由Jingjing Xu、Ji Wen、Xu Sun和Qi Su等研究人员构建,旨在促进中文文学文本处理领域的发展。该数据集基于多个现有的命名实体识别和关系抽取数据集,特别针对中文文学文本的特点,定义了7个实体标签和9个关系标签,丰富了中文自然语言处理的研究内容,对相关领域产生了重要影响。
当前挑战
该数据集面临的挑战主要包括:1) 中文文学文本的特殊性使得实体和关系的识别与抽取更为复杂,如何精确识别和处理这些特定领域的实体与关系成为一大难题;2) 数据集构建过程中,如何确保标注质量,处理标注不一致性和减少人工标注的工作量也是重要挑战。
常用场景
经典使用场景
针对中国古代文学领域的研究,Chinese-Literature-NER-RE-Dataset数据集被广泛应用于命名实体识别与关系抽取任务。通过该数据集,研究者可以训练模型以识别文本中的特定实体,如人物、地点、时间等,并抽取实体间的关系,为深入分析文学作品的结构与内容提供技术支持。
衍生相关工作
基于该数据集,研究者已开展了一系列相关工作,如开发了用于文学文本分析的深度学习模型,以及构建了结合知识图谱的文学研究平台,进一步拓宽了文学研究的范围和方法,促进了跨学科研究的融合与发展。
数据集最近研究
最新研究方向
在中文文学领域,命名实体识别与关系抽取是文本挖掘的重要任务。Chinese-Literature-NER-RE-Dataset作为一份针对中文文学文本的语篇级命名实体识别和关系抽取数据集,为该领域的研究提供了新的资源。该数据集根据中文文学文本的特点,定义了7种实体标签和9种关系标签,丰富了实体与关系类型的分类。近年来,基于该数据集的研究主要集中在深度学习模型的应用与优化上,旨在提升识别与抽取的准确性和效率,进一步推动中文文学文本处理技术的发展,对于理解中文文学作品的结构与内容具有重要的理论与实践意义。
以上内容由遇见数据集搜集并总结生成



