Chinese-Literature-NER-RE-Dataset|自然语言处理数据集|文学文本分析数据集
收藏数据集概述
数据集名称
- Chinese-Literature-NER-RE-Dataset
数据集目的
- 用于中文文学文本的命名实体识别(NER)和关系抽取(RE)。
数据集描述
- 数据集详情描述于arXiv文章。
标签设置
- 实体标签:定义了7种实体标签。
- 关系标签:定义了9种关系标签。
标注格式
实体标注
- T标签:标识实体。
- Id:实体在文档中的唯一编号,从0开始,每新增一个实体递增。
- Type:实体类型,对应实体标签之一。
- Begin Index:实体起始索引,从0开始,每字符递增。
- End Index:实体结束索引,从0开始,每字符递增。
- Value:标识的可识别对象的词。
关系标注
- R标签:标识关系。
- Id:关系在文档中的唯一编号,从0开始,每新增一个关系递增。
- Arg1 和 Arg2:关联的两个实体。
- Type:关系类型,对应关系标签之一。
引用信息
- 作者:Jingjing Xu, Ji Wen, Xu Sun, Qi Su
- 标题:A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text
- 发表年份:2017
- 链接:arXiv文章链接

LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
FAOSTAT Forestry
FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。
www.fao.org 收录
FROM-GLC全球30米地表覆盖数据集(2017)
该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。
国家对地观测科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录