five

Chinese-Literature-NER-RE-Dataset|自然语言处理数据集|文学文本分析数据集

收藏
github2020-04-01 更新2024-05-31 收录
自然语言处理
文学文本分析
下载链接:
https://github.com/brightgems/Chinese-Literature-NER-RE-Dataset
下载链接
链接失效反馈
资源简介:
一个用于中文文学文本的语篇级命名实体识别和关系抽取数据集。
创建时间:
2019-10-04
原始信息汇总

数据集概述

数据集名称

  • Chinese-Literature-NER-RE-Dataset

数据集目的

  • 用于中文文学文本的命名实体识别(NER)和关系抽取(RE)。

数据集描述

标签设置

  • 实体标签:定义了7种实体标签。
  • 关系标签:定义了9种关系标签。

标注格式

实体标注
  • T标签:标识实体。
    • Id:实体在文档中的唯一编号,从0开始,每新增一个实体递增。
    • Type:实体类型,对应实体标签之一。
    • Begin Index:实体起始索引,从0开始,每字符递增。
    • End Index:实体结束索引,从0开始,每字符递增。
    • Value:标识的可识别对象的词。
关系标注
  • R标签:标识关系。
    • Id:关系在文档中的唯一编号,从0开始,每新增一个关系递增。
    • Arg1Arg2:关联的两个实体。
    • Type:关系类型,对应关系标签之一。

引用信息

  • 作者:Jingjing Xu, Ji Wen, Xu Sun, Qi Su
  • 标题:A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text
  • 发表年份:2017
  • 链接arXiv文章链接
AI搜集汇总
数据集介绍
main_image_url
构建方式
针对中国文学文本中的命名实体识别和关系抽取任务,研究者构建了一套名为Chinese-Literature-NER-RE-Dataset的数据集。该数据集的构建基于对现有命名实体识别和关系抽取数据集的深入分析,并针对中国文学文本的特殊性,增设了若干类别标签。数据集涵盖了七种实体标签和九种关系标签,旨在全面反映中国文学文本中的实体与实体间的关系网络。
特点
该数据集的主要特点是针对中国文学文本进行了专门的实体和关系标注。实体标注采用T标签,包含了实体的唯一标识、类型、起始索引、终止索引和实体值等属性。关系标注则采用R标签,包括关系的唯一标识、参与关系的两个实体以及关系类型。这些标注使得数据集能够为研究者提供丰富的信息,以利于深入分析和模型训练。
使用方法
使用该数据集时,研究者可以依据标注格式,对文本进行实体和关系的识别与抽取。数据集以文档的形式提供,每个文档中的实体和关系均通过相应的标签和属性进行标识。用户可以通过解析这些标签和属性,提取出所需的实体和关系信息,进而用于模型训练或进一步的分析研究。
背景与挑战
背景概述
Chinese-Literature-NER-RE-Dataset,这是一个针对中文文学作品进行命名实体识别和关系抽取任务的数据集,由北京大学的研究团队在2017年创建。该数据集基于多个现有的命名实体识别和关系抽取数据集,并根据中文文学文本的特定需求,定义了7种实体标签和9种关系标签,旨在推进中文文学领域内的自然语言处理研究,对相关领域产生了显著的影响。
当前挑战
该数据集在解决中文文学文本的命名实体识别和关系抽取问题的同时,面临着以下挑战:首先,文学作品中的命名实体和关系抽取相较于通用文本更为复杂,涉及到的实体类型和关系类型更为丰富和多样;其次,构建过程中,如何准确地标注实体和关系,以及如何处理文学作品中的语言特性,如比喻、象征等,都是需要克服的难题。
常用场景
经典使用场景
针对中国文学文本的篇章级别命名实体识别与关系抽取任务,Chinese-Literature-NER-RE-Dataset数据集提供了丰富的标注实例。该数据集将文本中的实体和实体间的关系进行标注,使得研究者能够基于此开展模型训练与评估工作,进而提高篇章级别文本处理的能力。
实际应用
在文学研究、文本挖掘和自然语言处理等领域,Chinese-Literature-NER-RE-Dataset数据集的实际应用价值显著。它不仅有助于提升文献分析、内容理解的自动化水平,也为文学作品的数字化处理与知识图谱构建提供了重要资源。
衍生相关工作
基于该数据集,研究者们已经开展了一系列相关工作,包括但不限于篇章级别的实体识别与关系抽取模型、跨领域实体关系抽取方法以及文学文本的深度学习处理技术,这些工作进一步拓展了数据集的应用范围,丰富了中文自然语言处理领域的研究内容。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

FROM-GLC全球30米地表覆盖数据集(2017)

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录