NarrativeAspect-EntangledSynthetic

Name: NarrativeAspect-EntangledSynthetic
Creator: Institute of Formal and Applied Linguistics, Charles University, Prague
Published: 2026-03-04 03:30:05
License: 暂无描述

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/ufal/NarrativeAspect-EntangledSynthetic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'解耦核心叙事方面（故事五元组）'，旨在支持潜在嵌入空间中解耦核心叙事方面的研究（Higgins等人，2017）。每条记录包含一个基础故事（anchor）、一个保持相同核心方面的风格变体（stylistic variant），以及三个在单一核心方面（主题、过程或结果）上不同的变体。数据集用于训练多头嵌入模型，每个头专门处理一个核心叙事因素（主题/过程/结果），同时保持对其他因素和表面形式的不可变性。数据集为英文，采用JSON Lines格式，包含训练样本。每个样本包含基础故事文本、风格变体文本、以及在不同核心方面（主题、过程、结果）上变化的变体文本，以及对应的方面ID和元数据。数据集基于一个受控的叙事本体构建，包含30个抽象叙事主题、40个行动过程结构、34个结果类型等。该数据集支持多头部嵌入模型的训练，每个头部专注于一个叙事因素。

提供机构：

Institute of Formal and Applied Linguistics, Charles University, Prague

创建时间：

2026-03-03

原始信息汇总

Disentangled Core Narrative Aspects (Story Quintuplets) 数据集概述

数据集简介

该数据集包含合成的故事五元组，旨在支持在潜在嵌入空间中解耦核心叙事方面的研究。每个记录包含一个锚点故事、一个保持相同核心方面的风格变体，以及三个方面扰动变体，其中恰好有一个核心方面不同：主题、过程或结果。

关键特性

目的：用于训练多头嵌入模型，每个头专门负责一个核心叙事因素（主题/过程/结果），同时对其他因素和表面形式保持不变。
语言：英语 (en)。
许可协议：CC BY-NC 4.0。
任务类别：句子相似性、文本检索。
标签：叙事、解耦、对比学习、度量学习、嵌入、合成数据。

数据结构

数据格式：JSON Lines (JSONL)，每行一个训练样本。
数据划分：本版本提供单一划分（在我们的实验中用作训练数据）。没有官方的开发/测试划分；评估在单独的下游任务上进行。

数据字段

每个示例包含：

文本

anchor (字符串)：基础故事文本。
stylistic_variant (字符串)：锚点的风格/释义变体，具有相同的方面。
theme_different (字符串)：主题不同的变体。
course_different (字符串)：过程不同的变体。
outcome_different (字符串)：结果不同的变体。

方面ID

anchor_aspects (列表[int])：[theme_id, course_id, outcome_id]。
stylistic_variant_aspects (列表[int])。
theme_different_aspects (列表[int])。
course_different_aspects (列表[int])。
outcome_different_aspects (列表[int])。

元数据

metadata.anchor：setting_id, narrative_style_id, syntax_profile_id, length_bucket_id, judge_scores。
metadata.stylistic_variant：与上述相同的键。
metadata.theme_different / course_different / outcome_different：
- judge_scores：[theme_match_score, course_match_score, outcome_match_score, overall_coherence]。
- pairwise_judge_scores：[pivot_change_score, non_pivot_preservation_score, story_similarity_score, overall_pivot_quality]。

本体论与方面定义

数据集基于一个受控的叙事本体论构建，旨在实现嵌入空间中核心叙事方面的解耦。

本体论包括：

30个抽象叙事主题。
40个行动过程结构。
34个结果类型。
10个背景。
5种叙事风格。
3种句法配置。
3个长度桶。

所有人类可读的定义在以下文件中提供： mappings/aspect_definitions.json

核心叙事方面ID

方面ID是从零开始的索引，对应于aspect_definitions.json中条目的顺序。

theme_id → 索引到"themes"。
course_id → 索引到"course_of_action"。
outcome_id → 索引到"outcome"。

辅助受控因素

生成过程中使用的额外受控因素（使用基于字符串的标识符）：

setting_id
narrative_style_id
syntax_profile_id
length_bucket_id

设计原理

本体论经过手动设计，以：

确保类别之间的语义区分性。
允许叙事因素的组合重组。
创建恰好一个核心方面发生变化的最小对比对。
支持在多头嵌入模型中进行受控的解耦实验。

数据集有意区分：

主题（语义含义）。
行动过程（结构进展）。
结果（解决类型）。

使用说明

使用🤗 Datasets加载

python from datasets import load_dataset

ds = load_dataset("ufal/NarrativeAspect-EntangledSynthetic", split="train") ex = ds[0]

anchor = ex["anchor"] pos = ex["stylistic_variant"] neg_theme = ex["theme_different"] neg_course = ex["course_different"] neg_outcome = ex["outcome_different"]

注意事项

方面ID在整个数据集中是稳定且一致的。
包含定义以支持可重复性和下游可解释性。
本体论是合成的，不声称涵盖现实世界叙事分类的完整性。

搜集汇总

数据集介绍

构建方式

在叙事理解与表示学习领域，构建能够解耦核心叙事要素的数据集至关重要。本数据集通过精心设计的受控叙事本体论，系统性地生成了合成故事五元组。该本体论定义了30个抽象叙事主题、40种行动过程结构以及34种结局类型等要素，并辅以设定、叙事风格等辅助控制因子。每个数据样本以一个锚点故事为基础，通过精确操控特定叙事维度，生成一个保持核心要素不变的风格变体，以及三个分别仅在主题、过程或结局单一维度上存在差异的扰动变体，从而形成结构化的对比学习样本。

特点

本数据集的核心特征在于其高度结构化与解耦性设计。每个样本构成一个完整的五元组，明确区分了叙事内容的核心方面（主题、过程、结局）与表面风格变化，为多头部嵌入模型的训练提供了理想数据。数据集内嵌了详尽的元数据与人工评分，包括每个变体在多个维度上的匹配度与连贯性评分，确保了数据质量的透明性与可验证性。这种设计使得研究者能够精确控制变量，探究嵌入空间中对不同叙事要素的分离表示，推动了叙事语义的细粒度建模。

使用方法

该数据集主要服务于训练专门化于不同叙事要素的多头部嵌入模型。研究者可使用Hugging Face Datasets库直接加载数据，每个样本包含锚点故事、正样本（风格变体）及三个负样本（单一要素扰动变体）。模型训练旨在使每个嵌入头部对指定的核心叙事要素（如主题）敏感，同时对其他要素及表面形式保持不变。数据集未提供官方的开发集或测试集，评估需在独立的下游任务上进行。配套提供的本体论定义文件确保了要素标识的可解释性与实验的可复现性。

背景与挑战

背景概述

叙事理解作为自然语言处理领域的关键研究方向，其核心在于解构文本中交织的深层语义要素。Disentangled Core Narrative Aspects (Story Quintuplets) 数据集由研究团队于近期构建，旨在推动叙事解耦技术在隐式嵌入空间的应用探索。该数据集以 Higgins 等人（2017）提出的解耦表示理论为基础，通过精心设计的叙事本体论，系统化分离主题、行动过程和结局三大核心叙事维度。其合成故事五元组结构为多头部嵌入模型提供了训练基础，使模型能够分别捕捉不同叙事要素的语义特征，同时保持对其他要素及表面形式的不变性，从而在叙事相似性计算与文本检索任务中促进更精准的语义表示学习。

当前挑战

该数据集致力于应对叙事解耦领域的核心挑战：如何在嵌入空间中有效分离并量化叙事文本中高度纠缠的语义维度，如主题、情节结构与结局类型。具体而言，构建过程面临多重困难：其一，设计具备语义区分度且可组合的叙事本体论，需确保三十种主题、四十种行动过程及三十四种结局类型在概念上彼此独立；其二，生成最小对比样本时，需严格控制仅单一核心维度变化，同时维持文本的连贯性与自然性；其三，合成数据需避免引入现实叙事中复杂的噪声与歧义，这限制了模型在真实场景中的泛化能力。此外，缺乏官方评估划分也增加了模型性能验证的复杂性。

常用场景

经典使用场景

在叙事分析与自然语言处理领域，NarrativeAspect-EntangledSynthetic数据集为研究叙事要素的潜在表示提供了结构化基准。其经典使用场景聚焦于训练多头部嵌入模型，通过精心设计的叙事五元组——包括锚点故事、风格变体及三个核心要素（主题、过程、结局）的扰动变体——使模型能够学习在嵌入空间中分离并编码叙事的不同维度。这种设计支持对比学习与度量学习，旨在构建对叙事主题、行动过程和结局类型具有特异性，同时对表面形式变化保持不变的表示向量，为叙事理解的自动化奠定基础。

衍生相关工作

围绕该数据集的设计理念与结构，已衍生出一系列经典研究工作。这些工作主要集中于开发新型的多任务对比学习框架，以优化叙事要素的解耦表示；探索基于该数据集的预训练策略，提升下游任务如故事生成、摘要和检索的性能；以及利用其受控变体构建评估基准，用于衡量表示模型对特定叙事变化的敏感性。这些研究不仅验证了数据集的有效性，也进一步扩展了其在表示学习、可控文本生成和计算叙事分析等方向上的影响力。

数据集最近研究