小说人物关系提取数据集
收藏arXiv2025-07-07 更新2025-07-10 收录
下载链接:
https://github.com/LimboChen/NCRE-dataset
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个高质量的中国小说人物关系提取数据集,旨在解决现有关系提取方法在处理小说文本中复杂语境和隐含表达方面的挑战。该数据集基于金庸的经典武侠小说《射雕英雄传》,包含100个角色、1,109个对话单元和3,591个关系实例,每个实例都被标注在三个维度上,总计10,773个关系标签。该数据集为未来研究和数字人文研究提供了可靠的数据支持,并有助于自动构建小说中的人物关系网络。
This study constructs a high-quality Chinese fiction character relation extraction dataset, aiming to address the challenges faced by existing relation extraction methods when dealing with complex contexts and implicit expressions in fictional texts. Based on the classic wuxia novel *The Legend of the Condor Heroes* by Jin Yong, this dataset contains 100 characters, 1,109 dialogue units, and 3,591 relation instances. Each instance is annotated across three dimensions, totaling 10,773 relation labels. This dataset provides reliable data support for future research and digital humanities studies, and facilitates the automatic construction of character relationship networks in fiction.
提供机构:
郑州大学计算机与人工智能学院
创建时间:
2025-07-07
原始信息汇总
NCRE-dataset 概述
数据集基本信息
- 名称: NCRE-dataset
- 来源: 论文《Dialogue-Based Multi-Dimensional Relationship Extraction from Novels》(NLPCC2025)
数据集描述
- 用途: 用于从小说中提取基于对话的多维关系
- 类型: 语料库
相关论文
- 标题: Dialogue-Based Multi-Dimensional Relationship Extraction from Novels
- 会议: NLPCC2025
搜集汇总
数据集介绍

构建方式
该数据集以金庸武侠小说《射雕英雄传》为文本基础,采用多维度标注框架构建。通过整合ChatGLM-4模型的预标注与人工迭代标注策略,对100个主要角色的1109个对话单元进行三层平行维度标注:关系极性(友好/中立/敌对)、关系类型(亲属/从属/其他)和代际层级(长辈/平辈/晚辈)。标注过程采用两轮迭代验证机制,结合局部语境与整体叙事背景,最终形成包含3591个关系实例的高质量语料库。
特点
数据集创新性地采用三维正交标注体系,突破传统单一维度关系标注的局限。在关系极性维度呈现典型武侠小说特征,敌对关系占比达31.83%;代际维度中平辈关系占比47.28%,反映武侠世界的平等互动特性。所有对话单元均包含完整的说话者-受话者结构,并保留原始文学修辞特征,为模型理解隐喻性表达提供丰富素材。数据分布呈现文学文本特有的长尾特性,适合研究不平衡数据下的关系抽取问题。
使用方法
该数据集支持基于对话结构的角色关系多任务学习,可同时训练极性分类器、关系类型识别器和代际判别器。建议采用论文提出的CREDI框架,通过对话扩展策略将原始文本重构为"A对B说"的显式结构,结合LoRA微调技术和检索增强的上下文学习策略。数据已按8:1:1比例划分训练/验证/测试集,支持跨维度联合评估与单维度专项研究。基于该数据集构建的角色社交网络可应用于文学分析和知识图谱构建,网络边权可动态反映关系极性强度。
背景与挑战
背景概述
小说人物关系提取数据集(NCRE)由郑州大学计算机与人工智能学院的严宇晨等研究人员于2025年构建,旨在解决文学文本中复杂人物关系自动提取的难题。该数据集以金庸武侠小说《射雕英雄传》为语料基础,通过多维度标注框架(情感极性、社会关系类型和代际层次)系统化刻画人物互动特征。作为首个专注于中文小说多维度关系提取的标注语料,其创新性地融合对话结构分析与上下文推理,为知识图谱构建、数字人文研究等领域提供了重要数据支撑,显著推动了文学计算分析领域的发展。
当前挑战
该数据集面临的核心挑战主要体现在领域问题与构建过程两个层面。在领域问题方面,小说文本隐含的隐喻表达、动态演变的人物关系以及长程上下文依赖,使得传统基于新闻语料的关系提取方法难以准确捕捉文学特有的复杂社交语义。构建过程中的挑战则包括:多维度标签体系的设计需平衡语言学规范与文学特性;对话单元的边界判定受叙事穿插干扰;标注一致性维护要求标注者兼具文学素养与语言学知识;以及原始文本中人物指代歧义消解等难题。这些挑战促使研究者开发基于大语言模型的创新解决方案。
常用场景
经典使用场景
在自然语言处理领域,小说人物关系提取数据集为研究者提供了一个独特的平台,用于探索文学作品中复杂的人物互动。该数据集特别适用于基于对话结构的多维关系提取任务,通过分析小说中的对话内容,模型能够识别人物之间的情感极性、社会关系类型以及代际层次。这种多维度的关系分析不仅有助于深入理解小说情节,还为构建人物社交网络提供了数据支持。
实际应用
在实际应用层面,该数据集支持了多项有价值的实践。基于数据集构建的人物关系网络已成功应用于文学分析领域,帮助研究者直观展示小说中的人物社交结构。数字人文领域利用该数据集进行大规模文学作品分析,揭示不同时期文学作品中人物关系的演变规律。此外,知识图谱构建领域也受益于该数据集,能够自动生成小说人物关系的结构化表示。
衍生相关工作
该数据集已衍生出多个经典研究方向。基于数据集的CREDI方法创新性地结合了对话结构信息和大型语言模型,成为关系提取领域的新基准。在应用层面,研究者开发了自动化小说人物关系网络构建系统,实现了从文本到可视化网络的端到端处理。数据集还促进了跨领域研究,如将人物关系分析技术迁移至影视剧本分析等领域,拓展了关系提取技术的应用边界。
以上内容由遇见数据集搜集并总结生成



