NARRASUM

Name: NARRASUM
Creator: 腾讯人工智能实验室
Published: 2023-06-28 12:08:20
License: 暂无描述

arXiv2023-06-28 更新2024-06-21 收录

下载链接：

https://github.com/zhaochaocs/narrasum

下载链接

链接失效反馈

官方服务：

资源简介：

NARRASUM是一个大规模的叙事摘要数据集，由腾讯人工智能实验室创建。该数据集收集了来自电影和电视剧情节描述的122,000个叙事文档及其对应的抽象摘要。数据集涵盖了多种类型，摘要具有高度的抽象性和不同的长度。NARRASUM的创建旨在推动叙事摘要的研究，以及更广泛的NLP研究，如机器阅读理解、叙事理解和创意写作。数据集的构建过程包括从在线资源收集叙事，通过自动对齐和验证流程创建文档-摘要对，并筛选出高质量的文档-摘要对。NARRASUM的应用领域包括内容推荐和广告等实际场景，旨在解决快速识别关键点的需求。

NARRASUM is a large-scale narrative summarization dataset created by Tencent AI Lab. This dataset collects 122,000 narrative documents sourced from plot descriptions of movies and TV series, along with their corresponding abstractive summaries. It covers diverse genres, and its summaries are highly abstract with varying lengths. NARRASUM was developed to advance research in narrative summarization and broader natural language processing (NLP) tasks, such as machine reading comprehension, narrative understanding, and creative writing. The construction process of NARRASUM involves collecting narratives from online sources, creating document-summary pairs via automatic alignment and verification workflows, and filtering out high-quality document-summary pairs. Application scenarios of NARRASUM include practical use cases such as content recommendation and advertising, aiming to address the need for rapid identification of key points.

提供机构：

腾讯人工智能实验室

创建时间：

2022-12-03

搜集汇总

数据集介绍

构建方式

在叙事文本自动摘要研究领域，NARRASUM数据集的构建采用了创新的自动化框架。该框架首先从维基百科、Fandom、IMDB等在线资源中广泛收集电影与电视剧的情节描述文本，这些文本以第三人称视角完整叙述故事脉络与核心角色。随后，通过一个精心设计的“对齐-验证”流水线，系统性地匹配不同来源中指向同一影视作品的情节描述。该流水线结合了基于元信息的模糊匹配与基于RoBERTa分类器的语义验证，确保了跨源对齐的高召回率与高精度。最终，将每对已对齐的描述中较长者作为待摘要文档，较短者作为参考摘要，并应用多重过滤策略（如控制摘要长度比例、计算语义匹配分数、检测内容复制程度及确保信息覆盖完整性）以剔除低质量配对，从而从260万初始对齐对中精选出12.2万对高质量数据，构成了规模宏大且质量可靠的叙事摘要数据集。

特点

NARRASUM数据集展现出若干区别于传统摘要数据集的鲜明特征。其核心在于叙事领域的独特性，文档源自涵盖广泛类型与年代的电影电视剧情节描述，使得摘要任务必须深入理解完整的故事脉络，而非依赖新闻或学术论文中常见的结构性线索。数据统计分析揭示，该数据集的摘要内容在原文中的分布更为均匀，无明显的前部或局部集中倾向，这要求模型具备全局叙事理解能力。同时，摘要呈现出高度的抽象性，其新颖n-gram比例与覆盖密度指标接近最抽象的新闻摘要数据集XSum，且摘要长度变化多样。人类评估进一步证实，数据集中约80%的摘要内容忠实于原文，并能覆盖大部分关键事件与主要角色，确保了数据集在忠实度与信息量方面的高质量标准。

使用方法

NARRASUM数据集主要服务于叙事文本自动摘要模型的训练与评估。研究人员可将数据集按标题划分的训练、验证与测试集用于监督学习，训练各类抽取式或生成式摘要模型。鉴于其叙事文本长度常超过512个标记，该数据集特别适合用于开发和评估能够处理长文档的模型，如基于Longformer的架构。在评估方面，除使用ROUGE等自动指标外，还可借鉴论文中采用的基于SummaC的忠实度评估以及针对流畅性、连贯性、信息量等维度的人工评估框架。此外，该数据集亦可用于迁移学习研究，例如将在NARRASUM上预训练的模型应用于其他叙事理解任务（如机器阅读理解）或叙事摘要任务，以检验其泛化能力与知识迁移效果，从而推动叙事理解与生成的更广泛研究。

背景与挑战

背景概述

叙事摘要旨在生成叙事文本的浓缩版本，以描述其最显著的事件与角色。传统摘要研究多聚焦于新闻或学术论文等具有明确结构线索的文本，而叙事文本缺乏此类结构性特征，要求模型深入理解事件因果与角色行为以识别核心内容。为推进该领域研究，研究者于近年构建了NARRASUM数据集，其收录了来自电影与电视剧集情节描述的12.2万对叙事文档与摘要，涵盖多元类型与广泛时间跨度。该数据集由学术团队通过自动化对齐与验证流程构建，显著提升了叙事摘要数据的规模与质量，为探索叙事理解与生成提供了关键资源。

当前挑战

NARRASUM所应对的核心挑战在于叙事摘要任务本身：模型需克服叙事文本中信息均匀分布、缺乏显式结构指引的困难，通过理解完整叙事脉络、事件因果关联及角色行为动机来生成抽象性摘要。构建过程中的挑战主要包括多源数据对齐的模糊性问题，如影视作品标题变体、元信息缺失或错误导致的匹配歧义；以及摘要质量控制的复杂性，需通过长度筛选、语义匹配度计算与内容原创性评估等多重过滤策略，确保摘要的忠实性、信息覆盖度与抽象性，避免幻觉内容与直接拷贝现象。

常用场景

经典使用场景

在叙事文本摘要研究领域，NARRASUM数据集被广泛用于评估和开发能够理解完整故事结构的摘要模型。该数据集通过提供电影和电视剧情节描述及其对应摘要，为研究者构建了一个需要深入理解事件因果链与角色行为的任务环境。经典使用场景包括训练抽象式摘要模型，这些模型必须从分散于全文的关键信息中识别核心情节与主要人物，而非依赖新闻或学术论文中常见的结构性线索。

衍生相关工作

基于NARRASUM数据集，研究者衍生出一系列经典工作。例如，在模型架构方面，采用Longformer等长文本编码器的摘要系统被广泛探索，以处理叙事文档的长度挑战。在跨任务迁移方面，该数据集被用于预训练模型，提升在MCTest、MovieQA等叙事理解任务上的零样本性能。此外，围绕角色一致性分析、摘要位置偏差检测等细粒度评估方法也应运而生，深化了叙事摘要的质量评估体系。

数据集最近研究