five

TVSTORYGEN

收藏
arXiv2022-10-09 更新2024-06-21 收录
下载链接:
https://github.com/mingdachen/TVRecap
下载链接
链接失效反馈
官方服务:
资源简介:
TVSTORYGEN是一个由专业编剧编写的故事生成数据集,包含26,000个详细电视剧集摘要。数据集从粉丝贡献的网站收集,平均每个摘要包含1868.7个词。该数据集用于生成详细电视剧集摘要,要求从简短摘要和描述角色的文档中提取相关信息。数据集的应用领域包括故事生成和评估生成故事的忠实度,旨在解决故事生成中的复杂性和忠实度问题。

TVSTORYGEN is a story generation dataset compiled by professional screenwriters, containing 26,000 detailed television episode summaries. Collected from fan-contributed websites, each summary has an average length of 1868.7 words. This dataset is designed for generating detailed television episode summaries, and requires extracting relevant information from short summaries and character description documents. Its application fields cover story generation and the evaluation of the faithfulness of generated stories, aiming to address the issues of complexity and faithfulness in story generation.
提供机构:
丰田理工学院芝加哥分校
创建时间:
2021-09-18
搜集汇总
数据集介绍
main_image_url
构建方式
TVSTORYGEN的构建源自两个粉丝贡献的网站:Fandom和TVMegaSite。研究团队从这些平台收集了电视剧集的简要摘要、详细回顾以及角色描述。对于Fandom,利用超链接将剧集与其涉及的角色页面相连;对于TVMegaSite,则采用字符串匹配算法识别角色。为确保数据质量,依据多项标准对剧集进行过滤,例如剔除角色少于三个、回顾长度不足200词或摘要少于20词的样本。最终,数据集包含约26,000个实例,每个实例由简要摘要、平均1868.7词长度的详细回顾以及平均每集涉及16.7个角色的描述文档组成。
特点
该数据集的核心特点在于其独特的约束性:生成故事需同时依赖简要摘要和冗长的角色描述文档,这要求模型能从海量文本中检索并整合相关信息。与现有故事生成数据集相比,TVSTORYGEN的故事由专业编剧创作,角色互动复杂,且角色描述平均长度达1553.4词,远超过STORIUM等类似资源。此外,数据集覆盖多种电视剧类型,其中Fandom来源包含106部剧集,题材多样;而TVMegaSite的摘要更长,平均366.6词,且两者在长度和风格上存在系统性差异,为模型评估提供了丰富维度。
使用方法
使用TVSTORYGEN时,研究者可采用分层故事生成方法:先通过文本到情节模型基于输入生成语义角色标注(SRL)结构作为情节,再通过情节到文本模型生成最终故事。为处理长文本,编码器采用Longformer,并利用BM25从角色描述中检索关键信息。模型评估可借助反向模型——即训练从详细回顾生成摘要的模型,其困惑度作为衡量故事忠实度的自动指标。实验表明,结合角色描述和摘要的模型在自动指标上表现更优,但人类评估显示,模型在忠实于摘要和提升故事趣味性间仍存挑战。
背景与挑战
背景概述
TVSTORYGEN数据集由芝加哥丰田技术研究所的Mingda Chen与Kevin Gimpel于2022年创建,旨在解决受约束的故事生成问题。不同于传统数据集仅依赖简短提示,该数据集要求模型基于电视剧集摘要及多份详尽的人物描述,生成专业编剧水准的剧集回顾。数据集从粉丝贡献网站收集了约2.6万个实例,平均每篇回顾长达1868个词元,覆盖多种剧集类型。其核心研究问题在于如何从冗长的人物文档中提取相关信息,并融入连贯叙事,从而推动故事生成领域向更具真实感和角色一致性的方向发展。该数据集为评估模型在复杂多角色交互场景下的生成能力提供了独特基准,对自然语言生成研究具有重要影响。
当前挑战
TVSTORYGEN面临多重挑战。首先,输入与输出均极为冗长:平均每实例包含超过1.8k词元的故事及逾10k词元的人物描述,设计能有效整合长文档并生成长篇连贯故事的模型极具难度。其次,角色一致性挑战突出:模型需从庞杂描述中检索与情节相关的信息,并在生成过程中维持角色稳定的性格与目标,如塞尔玛对霍默的持续厌恶,这对神经模型的推理与记忆能力提出高要求。此外,构建过程中需处理粉丝贡献数据的不一致性,如部分摘要仅描述剧集开端而非完整结局,增加了数据对齐与模型训练的复杂性。
常用场景
经典使用场景
在叙事生成与可控文本生成领域,TVSTORYGEN被广泛用作多约束故事生成的基准数据集。其核心使用场景在于从简短的剧情摘要与多份冗长的角色描述文档中,生成结构完整、细节丰富的电视剧集回顾。该数据集尤其适合评估模型在复杂角色交互情境下,如何从海量文本中精准提取与剧情相关的角色信息,并将其无缝融入连贯叙事。研究者通常利用该数据集测试分层式故事生成框架,其中文本到情节模型与情节到文本模型协同工作,以验证模型对长文本输入与输出的处理能力。
实际应用
在实际应用中,TVSTORYGEN为影视剧本辅助创作、交互式叙事系统与个性化故事生成提供了坚实的数据基础。在剧本创作领域,编剧可利用基于该数据集训练的模型,从角色设定文档中自动生成符合人物性格的剧情发展,极大提升创作效率。对于交互式叙事游戏,该数据集可用于构建能够根据玩家选择的角色背景动态生成分支故事的系统。此外,在个性化内容推荐中,该数据集支持生成符合特定角色偏好与关系的定制化叙事内容,广泛应用于虚拟角色互动、教育模拟与娱乐媒体生产等场景。
衍生相关工作
TVSTORYGEN的发布催生了多项具有影响力的衍生研究。在模型架构层面,研究者基于该数据集提出了融合长文档检索与分层生成的故事生成框架,其中Longformer与RoBERTa的结合成为处理长文本角色描述的经典范式。在评估方法上,反向模型度量(PL)被后续工作广泛采纳为评估生成故事忠实度的标准指标,并进一步扩展至多文档摘要与对话生成领域。此外,该数据集推动了角色一致性建模的研究,衍生出基于实体状态追踪的动态情节规划方法,以及利用预训练检索模型(如REALM与RETRO)改进角色信息提取的系列工作,为可控文本生成领域树立了新的标杆。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作