five

Chinese-Literature-NER-RE-Dataset|中文文学数据集|自然语言处理数据集

收藏
github2018-08-23 更新2024-05-31 收录
中文文学
自然语言处理
下载链接:
https://github.com/ColionX/Chinese-Literature-NER-RE-Dataset
下载链接
链接失效反馈
资源简介:
我们提供了一个新的中文文学数据集,用于命名实体识别(NER)和关系抽取(RE)。该数据集基于几个现有的NER和RE数据集,但增加了一些特定于中文文学文本的额外类别。

We present a novel Chinese literature dataset designed for Named Entity Recognition (NER) and Relation Extraction (RE). This dataset builds upon several existing NER and RE datasets, incorporating additional categories specifically tailored to Chinese literary texts.
创建时间:
2018-08-23
原始信息汇总

Chinese-Literature-NER-RE-Dataset 概述

数据集描述

  • 名称: Chinese-Literature-NER-RE-Dataset
  • 目的: 用于中文文学文本的命名实体识别(NER)和关系抽取(RE)
  • 详细描述: 数据集的详细描述可在 arXiv 上找到。

标签集

  • 实体标签: 定义了7种实体标签
  • 关系标签: 定义了9种关系标签
  • 特点: 基于现有NER和RE数据集,增加了特定于中文文学文本的类别

标注格式

实体

  • 标识: 使用T标签
  • 属性:
    • Id: 文档内实体的唯一编号,从0开始,每新增一个实体递增
    • Type: 实体标签之一
    • Begin Index: 实体起始索引,从0开始,每字递增
    • End Index: 实体结束索引,从0开始,每字递增
    • Value: 指代可识别对象的词语

关系

  • 标识: 使用R标签
  • 属性:
    • Id: 文档内关系的唯一编号,从0开始,每新增一个关系递增
    • Arg1 和 Arg2: 与关系关联的两个实体
    • Type: 关系标签之一

引用信息

  • 作者: Jingjing Xu, Ji Wen, Xu Sun, Qi Su
  • 标题: A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text
  • 出版: CoRR, 2017
  • 链接: arXiv
AI搜集汇总
数据集介绍
main_image_url
构建方式
针对中国文学文本的命名实体识别和关系抽取任务,Chinese-Literature-NER-RE-Dataset数据集得以构建。该数据集在广泛参考现有命名实体识别和关系抽取数据集的基础上,针对中国文学文本的特定需求,定义了7种实体标签和9种关系标签,旨在为研究者和开发者提供一个详实的语料资源。
特点
该数据集的一个显著特点是,它包含了专门针对中国文学文本的实体和关系类别。通过细致的标注,每个实体和关系都被赋予了唯一的标识符,并详细记录了其在文本中的位置和关联实体。此外,数据集的构建基于学术论文的严谨研究,确保了标注的质量和可靠性。
使用方法
用户可以按照数据集中定义的标注格式,将实体和关系标签应用于文本中的相应位置。每个实体和关系都通过特定的标签和属性进行标识,使用户能够轻松地利用这些标注信息进行模型训练和评估。数据集的详细使用说明和格式化示例,可在其GitHub页面上找到。
背景与挑战
背景概述
Chinese-Literature-NER-RE-Dataset是一个针对中文文学文本的语篇级别命名实体识别和关系抽取数据集,创建于2017年。该数据集由Jingjing Xu、Ji Wen、Xu Sun和Qi Su等研究人员共同开发,旨在解决中文文学文本处理中实体和关系识别的问题。数据集的构建丰富了中文自然语言处理领域的研究资源,为相关任务提供了重要基准,对推动中文信息抽取技术的发展具有显著影响。
当前挑战
该数据集在构建过程中面临了诸多挑战,包括如何定义适用于中文文学文本的实体和关系标签、如何保证注释质量以及如何处理文学作品中的复杂语言结构。在研究领域问题解决方面,数据集需应对的挑战包含但不限于实体类别和关系的多样性、文本的语义丰富性以及实体识别与关系抽取之间的相互依赖性。
常用场景
经典使用场景
针对中国文学文本的特殊性,Chinese-Literature-NER-RE-Dataset数据集提供了一个在篇章级别上进行命名实体识别和关系抽取的基准。该数据集最经典的使用场景在于,研究者可以利用它来训练和评估自然语言处理模型,从而实现对文学作品中的角色、地点、时间等实体及其相互关系的自动识别,这对于深入理解和分析文学作品具有重要的研究价值。
实际应用
在实践应用方面,基于该数据集开发的模型可以用于自动化文本分析,如文学作品的数字化归档、索引构建、内容摘要等,极大地提高了文献处理的效率和准确性。此外,它还可以辅助文学教育,通过智能技术提升学生对文学作品的深入理解。
衍生相关工作
Chinese-Literature-NER-RE-Dataset数据集的发布促进了大量相关工作的开展,包括但不限于实体识别和关系抽取的算法改进、跨领域适应性研究、以及文学文本的深度学习模型应用等,这些研究进一步扩展了数据集的应用范围,并推动了自然语言处理技术在文学领域的融合与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集