多流派中文小说命名实体识别语料库

Name: 多流派中文小说命名实体识别语料库
Creator: 郑州大学计算机与人工智能学院
Published: 2023-11-27 11:08:41
License: 暂无描述

arXiv2023-11-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.15509v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了首个大规模多流派中文小说命名实体识别语料库，包含260部来自13个不同流派的中文网络小说，总计105,851个句子，5,379,749个中文字符，263,135个实体。数据集通过从起点中文网站收集并标注前10章的内容创建，重点关注人物、地点和组织三类实体。该数据集旨在推动文学领域命名实体识别的研究，特别是在解决不同流派间实体识别的差异性问题上。

This study constructs the first large-scale multi-genre Chinese fiction named entity recognition (NER) corpus. The corpus includes 260 Chinese online novels from 13 distinct genres, totaling 105,851 sentences, 5,379,749 Chinese characters, and 263,135 entities. It was developed by collecting and annotating the first 10 chapters of the novels sourced from Qidian Chinese Network, with a focus on three core entity categories: persons, locations, and organizations. This corpus aims to advance NER research in the field of literary studies, particularly in addressing the variability of entity recognition across different genres.

提供机构：

郑州大学计算机与人工智能学院

创建时间：

2023-11-27

搜集汇总

数据集介绍

构建方式

本数据集构建于中国在线小说网站起点中文网，涵盖了13个不同类型的小说，包括仙侠、体育、军事、历史、奇幻、悬疑、武侠、游戏、玄幻、现实、科幻、都市和轻小说。数据集包含了260部小说的前10个章节，共计105,851个句子，5,379,749个汉字，263,135个实体，以及24,458个唯一的实体，分为人名、地名和组织机构三种类型。为了确保数据集的质量和一致性，采用了多轮迭代的人工标注方法，并使用LTP工具进行预标注，以提高标注指南的准确性。标注过程分为实验阶段和正式标注阶段，共有7名标注员参与，耗时70天。最终，数据集的标注一致性评估结果显示，微观平均F1分数为92.15%，宏观平均F1分数为88.62%，表明数据集具有较高的可靠性。

特点

该数据集的特点在于其规模庞大、类型多样，涵盖了多种文学流派，为文学领域命名实体识别研究提供了宝贵的资源。数据集中的实体标注遵循ACE实体标注指南，并针对中文小说的特点进行了适当的调整。例如，忽略了单字实体、不标注嵌套实体、只标注最长的实体等。此外，数据集还提供了不同类型实体在不同文学流派中的分布和统计信息，有助于研究人员分析不同类型实体的特征和规律。最后，数据集还包含了跨类型和跨领域的实体识别实验结果，为文学领域命名实体识别研究提供了重要的参考。

使用方法

使用本数据集进行命名实体识别研究时，可以将其分为训练集、验证集和测试集，按照8:1:1的比例进行划分。可以选择多种基线模型进行实验，例如BiLSTM-CRF、BERT-CRF和BERT-BiLSTM-CRF等。在实验过程中，可以比较不同模型在不同实体类型上的识别效果，并分析不同类型实体的特征和规律。此外，还可以进行跨类型和跨领域的实体识别实验，以评估模型在不同领域和类型上的泛化能力。为了更好地利用数据集，还可以进行数据增强、特征工程等操作，以提高模型的性能。

背景与挑战

背景概述

命名实体识别（NER）是自然语言处理中的一个重要任务，它在信息检索、文本摘要、问答系统、机器翻译和知识图谱构建等领域有着广泛的应用。然而，由于文学文本中实体类型多样、命名风格差异大以及背景知识的显著差异，文学领域的NER研究一直受限。赵汉杰等人于2023年11月27日在arXiv上发布了一篇论文，介绍了他们构建的中文小说NER语料库，该语料库包含来自260部在线中文小说的105,851个句子，共包含263,135个实体，跨越了13个不同的文学流派。这个语料库的建立旨在促进文学NER的研究，并为相关领域的研究者提供了一个宝贵的数据资源。

当前挑战

尽管在新闻领域和一些垂直领域取得了很大的进展，但文学领域的NER研究仍然面临着许多挑战。首先，由于文学文本中实体类型的多样性和命名风格的差异，建立一个通用的NER模型是非常困难的。其次，由于缺乏大规模的NER数据集，文学领域的NER研究发展缓慢。此外，文学文本中的实体识别还面临着OOV（Out-of-Vocabulary）问题，即如何识别和识别训练数据中未出现的实体。最后，由于不同文学流派的主题和背景知识差异，跨流派的NER也面临着挑战。

常用场景

经典使用场景

多流派中文小说命名实体识别语料库被广泛应用于文学文本分析领域，尤其是针对中文网络小说的命名实体识别研究。该语料库涵盖了13个不同类型的小说，提供了丰富多样的实体类型，如人物、地点和组织等，为研究人员提供了宝贵的资源，以便训练和评估命名实体识别模型。此外，该语料库还可用于研究不同文学流派中实体特征和分布的差异，以及跨领域命名实体识别的性能差异。

解决学术问题

多流派中文小说命名实体识别语料库解决了文学领域命名实体识别研究中存在的数据集规模有限和流派单一的问题。该语料库的建立为文学领域命名实体识别研究提供了大规模、多流派的数据支持，有助于推动该领域的发展。此外，该语料库还可用于研究不同文学流派中实体特征和分布的差异，以及跨领域命名实体识别的性能差异，为相关研究提供了新的视角。

衍生相关工作

多流派中文小说命名实体识别语料库的建立为相关研究提供了基础，衍生出一系列相关的工作。例如，基于该语料库，研究人员可以开发更加精确和高效的命名实体识别模型，研究不同文学流派中实体特征和分布的差异，以及跨领域命名实体识别的性能差异。此外，该语料库还可用于构建知识图谱、进行信息检索、文本摘要、问答系统和机器翻译等自然语言处理任务，为相关领域的研究和应用提供支持。

以上内容由遇见数据集搜集并总结生成