NSNRL

Name: NSNRL
Creator: 汉堡大学; Toloka AI; 德国UDS; 达姆施塔特工业大学
Published: 2026-04-23 23:39:09
License: 暂无描述

arXiv2026-04-23 更新2026-04-25 收录

下载链接：

https://narrative-similarity-task.github.io/results/

下载链接

链接失效反馈

官方服务：

资源简介：

NSNRL数据集由汉堡大学等机构联合构建，旨在研究叙事相似性和叙事表示学习。该数据集包含1039个从维基百科摘要中提取的故事三元组，每个三元组经过严格的长度过滤和LLM预筛选，确保数据质量。数据集通过对比标注方法收集人类对叙事相似性的判断，标注过程重点关注故事情节、结果和抽象主题三个维度。该数据集主要用于评估叙事相似性分类和叙事嵌入表示的性能，为自然语言处理领域的叙事理解研究提供了重要资源。

提供机构：

汉堡大学; Toloka AI; 德国UDS; 达姆施塔特工业大学

创建时间：

2026-04-23

搜集汇总

数据集介绍

构建方式

NSNRL数据集的构建始于从Tell-Me-Again语料库中筛选长度为4至8句的英文故事摘要，并借助LLM剔除仅包含前提或多余标记的条目。随后，基于叙事嵌入模型story-emb与基础模型e5的线性组合，对候选三元组进行采样，通过调节超参数α与秩r控制难度。所有三元组均经过LLM拒绝采样过滤，仅保留两个商用模型分歧的实例，最终由12名母语或近母语水平的标注员在Toloka平台上进行至少两轮标注，并对分歧样本引入第三轮仲裁，共收集1039个三元组。

特点

该数据集的核心特点在于采用对比式三元组标注范式，要求判断两个候选故事中哪一个与锚定故事在叙事层面更为相似，而非依赖传统的标量评分。标注指南定义了行为过程、结局与抽象主题三个相似性维度，但不规定权重，以兼容直觉判断与叙事理论。数据集包含开发集200个与测试集400个三元组，并提供1900个由多种商用LLM生成的合成三元组作为训练替代，且所有标注均附有元数据如Wikidata ID与标注员评注。

使用方法

NSNRL涵盖两个赛道：Track A要求系统直接输出三元组中更相似的候选故事，支持基于提示的LLM决策或嵌入距离比较；Track B则需为每个故事生成稠密嵌入，通过余弦距离与标注顺序对齐来评估。组织方提供基准模型结果（如Jaccard相似度、GPT-4o-mini和e5），并鼓励参与者提交跨赛道结果。建议在完整测试集上进行评估，而非拆分赛道，同时注重利用合成数据进行训练或微调，并避免依赖位置偏见。

背景与挑战

背景概述

叙述故事相似度与叙述表示学习（NSNRL）数据集由汉堡大学、Toloka AI、达姆施塔特工业大学等机构的研究人员于2026年在SemEval-2026任务4中创建。该数据集聚焦于计算建模叙事相似性，其核心研究问题在于如何让机器判断两篇故事在情节因果、发展进程等抽象层面上的关联程度，而非依赖具体细节如人物姓名或场景设定。通过收集超过1,000个故事摘要三元组的双重人工标注，并创新性地采用对比式标注范式——要求标注者判断哪篇候选故事与锚定故事更相似——该数据集为叙事表示学习提供了首个大规模公开基准。其影响力已通过46个团队提交的71个系统得到验证，推动了从大语言模型集成到符号化叙事图谱等多种方法的发展。

当前挑战

NSNRL数据集面临的核心挑战源于叙事相似性的主观本质：同一故事对在不同标注者眼中可能呈现截然不同的相似性判断，导致克朗巴哈系数仅为0.33，最终标签质量上限约为89%。构建过程中，研究者遭遇了多重困难：在故事来源方面，需从Tell-Me-Again数据集中筛选4-8句摘要并进行长度过滤与LLM质量排查；在候选三元组采样方面，为避免随机采样导致的低相似度问题，须依赖叙事嵌入模型进行分层采样，并通过超参数α和β平衡基础模型影响；在人工标注方面，需应对显著的顺序偏差（标注者58%偏好首个候选）、设计拒绝采样策略以聚焦争议案例、并收集第三份标注来仲裁分歧。这些环节共同构成了该数据集从理论定义到实践落地的核心挑战。

常用场景

经典使用场景

在计算叙事学领域中，NSNRL数据集主要用于评估和训练模型对叙事相似性的判别能力。其经典使用场景是三元组分类任务：给定一个锚点故事和两个候选故事，系统需判断哪个候选故事与锚点故事在叙事层面更为相似。该数据集聚焦于情节的因果模式与进展序列，而非具体的人物、地名或物品细节，从而引导模型学习抽象的叙事结构。研究者通常借助该数据集测试语言模型能否超越表层的词汇重叠，捕捉叙事的深层共性，例如事件走向、结局以及抽象主题等维度。

解决学术问题

NSNRL数据集有力填补了以往叙事相似性研究缺乏大规模人工标注基准的空白。此前相关工作或依赖电影翻拍列表、跨语言维基百科对齐等间接信号，或采用难以保持一致性的李克特量表评分，均未能有效量化主观性较强的叙事相似判断。该数据集通过对比式三元组标注设计，以二元分类任务替代连续评分，显著提升了标注的可靠性与判别力。其引入的直觉驱动型叙事相似定义兼容叙事理论，为评估叙事表示学习的有效性提供了标准化测试平台，推动了计算文学与自然语言处理交叉领域的实证研究。

衍生相关工作

NSNRL数据集的发布催生了一系列富有启发性的后续工作。在跟踪赛提交的系统中，COGNAC团队采用大语言模型多数投票与动态路由策略，结合叙事三要素分解，在分类任务中达到了最优性能。FactUEP通过弱信号门控机制实现了对困难样本的精细推理，而AI-Monitors则构建了嵌入模型与提示模型的混合集成框架。在表示学习赛道中，YNU-HPCC利用All-but-the-Top后处理方法优化叙事嵌入，hits_team则通过对比学习与软标签蒸馏微调了Qwen3嵌入模型。这些工作共同探索了叙事特征提取、模型集成与动态推理等方向的前沿范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集