five

Chinese Literature NER-RE Dataset

收藏
arXiv2019-06-11 更新2024-06-21 收录
下载链接:
https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘Chinese Literature NER-RE Dataset’,由北京大学电子工程与计算机科学学院创建,包含726篇文章,总计超过100,000个字符。该数据集从数百篇中文文学文章中构建,旨在提供一个话语级别的资源,以增强中文文学文本中的命名实体识别和关系抽取任务。创建过程中采用了启发式标记方法和机器辅助标记方法,确保数据的一致性和质量。该数据集特别适用于研究中文文学文本中的实体和关系,为相关研究提供了重要的基准和资源。

This dataset, named 'Chinese Literature NER-RE Dataset', was created by the School of Electronic Engineering and Computer Science, Peking University. It contains 726 articles with a total of over 100,000 characters. Constructed from hundreds of Chinese literary articles, this dataset aims to provide a discourse-level resource to advance Named Entity Recognition (NER) and Relation Extraction (RE) tasks on Chinese literary texts. Both heuristic annotation and machine-assisted annotation methods were employed during its creation to ensure data consistency and quality. This dataset is particularly suitable for research on entities and relations in Chinese literary texts, serving as an important benchmark and resource for relevant academic studies.
提供机构:
北京大学电子工程与计算机科学学院
创建时间:
2017-11-19
搜集汇总
数据集介绍
main_image_url
构建方式
中国文学文本的命名实体识别与关系抽取任务长期受困于标注数据匮乏的难题。为填补这一空白,该数据集从逾千篇中文文学篇章中精选726篇,构建了涵盖29,096个句子、超过十万字符的语料库。标注过程采用三阶段策略:首先进行初步标注以暴露数据不一致性问题,继而引入基于通用消歧规则的启发式标注方法,统一实体头词提取等标准;最后借助机器学习辅助标注,利用CRF模型在部分语料上学习标注规范,对剩余数据进行预测,仅需人工校验预测与真实标签的差异,从而高效保证标注一致性。整个标注工作由5人耗时三个月、约300人时完成。
特点
该数据集的核心特色在于其篇章级视角,突破了传统句子级标注的局限,使同一段落内的上下文信息得以充分利用,更贴合文学文本的复杂语义。标注体系包含7种实体标签和9种关系标签,其中“事物”、“时间”、“度量”三类实体标签专为文学文本中频繁出现的物体、时间线及度量词设计;关系标签中的“社会”关系则精准捕捉文学作品中人物间的非血缘纽带。数据集通过“T”和“R”标识符分别记录实体与关系,每个实体均包含唯一ID、类型、起止索引及具体词汇,每条关系则关联两个实体并标注其类型,结构清晰且便于解析。
使用方法
该数据集可直接用于训练和评估命名实体识别与关系抽取的联合学习模型,为研究者提供了基准实验框架。官方已基于LSTM和CRF等经典模型进行了命名实体识别实验,并测试了包括SVM、CNN、RNN及多种变体在内的关系抽取方法,结果可作为后续研究的性能基线。数据集以公开形式托管于GitHub,研究者可下载后按标准格式解析实体与关系标注,结合自身模型进行训练或微调,尤其适用于探索篇章级上下文对文学文本理解的影响。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别与关系抽取作为信息抽取的核心任务,长期以来在新闻语料上取得了显著进展,然而对于文学文本这一复杂而重要的领域,相关研究却因标注资源的匮乏而步履维艰。为弥合这一鸿沟,北京大学计算语言学教育部重点实验室的许晶晶、温济、孙栩、苏祺等研究人员于2017年构建了Chinese Literature NER-RE Dataset,这是一个面向中文文学文本的篇章级命名实体识别与关系抽取数据集。该数据集从数百篇中国文学作品中共计标注了726篇文章、29096个句子与超过10万字符,定义了涵盖事物、人物、地点等7类实体标签以及位于、部分-整体、家庭等9类关系标签,旨在为文学文本中复杂的语义关系建模提供基准资源。该数据集的问世不仅填补了中文文学领域标注数据的空白,更推动了篇章级信息抽取研究的发展,为后续工作奠定了坚实基础。
当前挑战
该数据集面临的核心挑战首先源于文学文本中大量修辞手法的使用,如拟人、隐喻等,导致实体边界模糊与类别歧义——例如“哈姆雷特”在上下文中指代一只兔子,不同标注者可能将其标注为“人物”或“事物”,严重影响数据一致性。构建过程中,为解决这一难题,研究者提出了启发式消歧规则与机器辅助标注方法:前者删除修饰词仅保留实体核心,后者利用条件随机场模型从已标注子集中学习标准并预测未标注数据,标注者仅需关注预测标签与真实标签不一致的案例。此外,数据稀疏性使得部分实体标签(如“组织”、“度量”)的召回率偏低,而如何高效处理未知实体与复杂关系仍是亟待突破的瓶颈。
常用场景
经典使用场景
在中文自然语言处理领域,文学作品因其修辞丰富、语义含蓄而成为命名实体识别与关系抽取的难点。Chinese Literature NER-RE Dataset作为首个面向中文文学语篇的标注资源,为研究者提供了涵盖726篇文章、逾10万字符的高质量语料。其经典使用场景在于训练和评估能够处理文学文本中实体歧义与复杂关系的模型,例如利用双向LSTM或条件随机场进行实体边界识别,或通过卷积神经网络与递归神经网络抽取实体间的空间、归属等语义关系,从而推动语篇级信息抽取技术从新闻文本向文学领域的迁移。
解决学术问题
该数据集的核心贡献在于填补了中文文学文本缺乏标准标注资源的空白,解决了因修辞手法导致的实体标注不一致问题。通过定义7类实体标签(如‘事物’、‘时间’、‘度量’)和9类关系标签(如‘位于’、‘部分-整体’、‘社会关系’),研究者得以系统性地探索文学文本中模糊表达(如拟人化命名)的消歧策略。数据集还促进了语篇级联合学习的研究,使模型能够利用上下文信息提升实体与关系的联合抽取性能,为后续工作提供了可复现的基线实验框架。
衍生相关工作
基于该数据集,学界衍生出一系列经典工作。在命名实体识别方面,研究者提出了融合启发式规则与机器辅助标注的混合框架,显著提升标注一致性;在关系抽取领域,长短时记忆网络沿最短依存路径建模的方法(SDP-LSTM)在此数据集上取得了55.3%的F1值,成为后续对比基准。此外,双向循环卷积神经网络(BRCNN)与基于排序的卷积神经网络(CR-CNN)等模型均以此数据为测试平台,验证了其在处理文学文本语义关系时的有效性,推动了中文文学信息抽取技术的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作