five

小说人物关系提取数据集|文本挖掘数据集|数字人文数据集

收藏
arXiv2025-07-07 更新2025-07-10 收录
文本挖掘
数字人文
下载链接:
https://github.com/LimboChen/NCRE-dataset
下载链接
链接失效反馈
资源简介:
本研究构建了一个高质量的中国小说人物关系提取数据集,旨在解决现有关系提取方法在处理小说文本中复杂语境和隐含表达方面的挑战。该数据集基于金庸的经典武侠小说《射雕英雄传》,包含100个角色、1,109个对话单元和3,591个关系实例,每个实例都被标注在三个维度上,总计10,773个关系标签。该数据集为未来研究和数字人文研究提供了可靠的数据支持,并有助于自动构建小说中的人物关系网络。
提供机构:
郑州大学计算机与人工智能学院
创建时间:
2025-07-07
原始信息汇总

NCRE-dataset 概述

数据集基本信息

  • 名称: NCRE-dataset
  • 来源: 论文《Dialogue-Based Multi-Dimensional Relationship Extraction from Novels》(NLPCC2025)

数据集描述

  • 用途: 用于从小说中提取基于对话的多维关系
  • 类型: 语料库

相关论文

  • 标题: Dialogue-Based Multi-Dimensional Relationship Extraction from Novels
  • 会议: NLPCC2025
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以金庸武侠小说《射雕英雄传》为文本基础,采用多维度标注框架构建。通过整合ChatGLM-4模型的预标注与人工迭代标注策略,对100个主要角色的1109个对话单元进行三层平行维度标注:关系极性(友好/中立/敌对)、关系类型(亲属/从属/其他)和代际层级(长辈/平辈/晚辈)。标注过程采用两轮迭代验证机制,结合局部语境与整体叙事背景,最终形成包含3591个关系实例的高质量语料库。
特点
数据集创新性地采用三维正交标注体系,突破传统单一维度关系标注的局限。在关系极性维度呈现典型武侠小说特征,敌对关系占比达31.83%;代际维度中平辈关系占比47.28%,反映武侠世界的平等互动特性。所有对话单元均包含完整的说话者-受话者结构,并保留原始文学修辞特征,为模型理解隐喻性表达提供丰富素材。数据分布呈现文学文本特有的长尾特性,适合研究不平衡数据下的关系抽取问题。
使用方法
该数据集支持基于对话结构的角色关系多任务学习,可同时训练极性分类器、关系类型识别器和代际判别器。建议采用论文提出的CREDI框架,通过对话扩展策略将原始文本重构为"A对B说"的显式结构,结合LoRA微调技术和检索增强的上下文学习策略。数据已按8:1:1比例划分训练/验证/测试集,支持跨维度联合评估与单维度专项研究。基于该数据集构建的角色社交网络可应用于文学分析和知识图谱构建,网络边权可动态反映关系极性强度。
背景与挑战
背景概述
小说人物关系提取数据集(NCRE)由郑州大学计算机与人工智能学院的严宇晨等研究人员于2025年构建,旨在解决文学文本中复杂人物关系自动提取的难题。该数据集以金庸武侠小说《射雕英雄传》为语料基础,通过多维度标注框架(情感极性、社会关系类型和代际层次)系统化刻画人物互动特征。作为首个专注于中文小说多维度关系提取的标注语料,其创新性地融合对话结构分析与上下文推理,为知识图谱构建、数字人文研究等领域提供了重要数据支撑,显著推动了文学计算分析领域的发展。
当前挑战
该数据集面临的核心挑战主要体现在领域问题与构建过程两个层面。在领域问题方面,小说文本隐含的隐喻表达、动态演变的人物关系以及长程上下文依赖,使得传统基于新闻语料的关系提取方法难以准确捕捉文学特有的复杂社交语义。构建过程中的挑战则包括:多维度标签体系的设计需平衡语言学规范与文学特性;对话单元的边界判定受叙事穿插干扰;标注一致性维护要求标注者兼具文学素养与语言学知识;以及原始文本中人物指代歧义消解等难题。这些挑战促使研究者开发基于大语言模型的创新解决方案。
常用场景
经典使用场景
在自然语言处理领域,小说人物关系提取数据集为研究者提供了一个独特的平台,用于探索文学作品中复杂的人物互动。该数据集特别适用于基于对话结构的多维关系提取任务,通过分析小说中的对话内容,模型能够识别人物之间的情感极性、社会关系类型以及代际层次。这种多维度的关系分析不仅有助于深入理解小说情节,还为构建人物社交网络提供了数据支持。
实际应用
在实际应用层面,该数据集支持了多项有价值的实践。基于数据集构建的人物关系网络已成功应用于文学分析领域,帮助研究者直观展示小说中的人物社交结构。数字人文领域利用该数据集进行大规模文学作品分析,揭示不同时期文学作品中人物关系的演变规律。此外,知识图谱构建领域也受益于该数据集,能够自动生成小说人物关系的结构化表示。
衍生相关工作
该数据集已衍生出多个经典研究方向。基于数据集的CREDI方法创新性地结合了对话结构信息和大型语言模型,成为关系提取领域的新基准。在应用层面,研究者开发了自动化小说人物关系网络构建系统,实现了从文本到可视化网络的端到端处理。数据集还促进了跨领域研究,如将人物关系分析技术迁移至影视剧本分析等领域,拓展了关系提取技术的应用边界。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录