STORIUM

Name: STORIUM
Creator: 麻省大学阿默斯特分校
Published: 2020-10-05 07:26:09
License: 暂无描述

arXiv2020-10-05 更新2024-06-21 收录

下载链接：

https://storium.cs.umass.edu

下载链接

链接失效反馈

官方服务：

资源简介：

STORIUM数据集是由麻省大学阿默斯特分校与STORIUM合作创建的，旨在推动机器参与的故事生成研究。该数据集包含5743个长篇故事，总计125M个tokens，每个故事都包含精细的自然语言注释，如角色目标和属性，这些注释分布在每个叙述中，为指导模型提供了坚实的依据。STORIUM数据集的特点在于其故事的长度和丰富性，以及通过STORIUM平台收集的真实用户数据。数据集的应用领域主要集中在故事生成模型的训练和评估，特别是在机器参与的故事创作过程中，通过让真实作者与模型互动，评估模型的生成效果。

The STORIUM Dataset was co-developed by the University of Massachusetts Amherst and STORIUM, with the goal of advancing research on machine-involved story generation. This dataset comprises 5,743 full-length stories, totaling 125 million tokens. Each story is equipped with fine-grained natural language annotations such as character goals and attributes, which are integrated throughout the narrative, providing solid grounding for guiding models. What distinguishes the STORIUM Dataset is its lengthy, rich story corpus and real user data collected via the STORIUM platform. Its main application scenarios focus on the training and evaluation of story generation models, particularly in evaluating the generation quality of models during human-machine collaborative story creation, where real authors interact with the models.

提供机构：

麻省大学阿默斯特分校

创建时间：

2020-10-05

搜集汇总

数据集介绍

构建方式

在叙事生成研究领域，数据集的构建需兼顾丰富语境与结构化引导。STORIUM数据集源自在线协作叙事平台，通过游戏化机制收集了5,743个长篇故事，总计1.26亿词元。每个故事被分解为场景条目，并融入了细粒度的自然语言标注，如角色目标、属性及挑战卡片。这些标注以卡片形式自然嵌入叙事流程，为模型提供了连贯的语义约束。数据构建过程注重保持作者原创性，通过平台协作机制确保标注与叙事内容高度相关，验证显示超过77%的条目受卡片内容直接影响。

特点

STORIUM数据集的显著特点在于其深度结构化与叙事长度。相较于传统故事数据集，该数据集平均每个故事包含19,278个词元，并拥有41项自然语言标注，为生成模型提供了多层次的引导信息。数据集涵盖多元叙事主题，从奇幻、科幻到现实题材，展现了丰富的故事弧与角色发展轨迹。其卡片化标注系统不仅定义了角色能力与情节挑战，还通过主题模型分析揭示了叙事中常见的主题转换模式。这种结构支持模型进行叙事规划，同时保持了创作自由度，为长篇幅、多线程的故事生成奠定了坚实基础。

使用方法

该数据集的使用聚焦于机器在环叙事生成评估。研究者可通过微调预训练语言模型（如GPT-2），并利用数据集中的卡片标注、场景条目及历史上下文作为条件输入，生成故事延续。评估阶段，模型被集成至STORIUM平台，供真实作者交互使用：作者可请求模型生成建议文本，并基于编辑行为提供反馈。平台自动计算用户故事编辑评分（USER），该指标通过衡量生成文本在编辑后的保留比例，有效关联了用户对相关性、连贯性等维度的评分。这种使用方法将评估置于真实创作环境中，推动了叙事生成研究的实用化发展。

背景与挑战

背景概述

STORIUM数据集于2020年由马萨诸塞大学阿默斯特分校、加州大学洛杉矶分校及Storium平台的研究团队联合发布，旨在推动人机协同叙事生成领域的研究。该数据集源自在线协作叙事社区STORIUM，包含约6,000篇长篇幅故事（总计1.25亿词元），每篇故事均穿插了细粒度的自然语言标注（如角色目标与属性），为生成模型提供了结构化引导。其核心研究问题在于解决开放域故事生成任务中因输出空间巨大而导致的模型训练与评估困难，通过提供丰富上下文与自然标注，显著提升了叙事生成的引导性与可控性，对计算创意写作和交互式叙事系统的发展产生了深远影响。

当前挑战

STORIUM数据集面临的挑战主要体现在两方面：其一，在领域问题层面，故事生成任务本身具有高度开放性和创造性，模型需在保持叙事连贯性与逻辑性的同时，适应多样化的主题、角色与情节发展，这对生成长文本的语义一致性和上下文相关性提出了严峻考验；其二，在构建过程中，数据采集需处理海量长文本与复杂嵌套标注，如何有效整合故事中的卡片（如挑战、角色属性）等半结构化元数据，并设计兼顾灵活性与效率的上下文打包策略（如采用Cassowary算法优化输入空间），成为数据集构建的关键技术难点。

常用场景

经典使用场景

在叙事生成研究领域，STORIUM数据集为机器辅助故事创作提供了经典的应用场景。该数据集源自在线协作叙事平台，包含大量带有精细自然语言注释的长篇故事，这些注释如角色目标、属性等贯穿于叙事之中。研究者通常利用这些结构化元数据来引导生成模型，在给定丰富上下文（如场景介绍、挑战卡片和角色卡片）的条件下，自动续写符合故事逻辑和风格的文本片段。这种设置使得模型能够学习如何依据叙事约束生成连贯且富有创意的故事内容，为探索可控文本生成提供了理想实验环境。

实际应用

STORIUM数据集的实际应用主要体现在辅助创意写作与教育领域。在协作叙事平台Storium上，作者在遭遇创作瓶颈时，可调用集成于该平台的故事生成模型，获取基于当前故事上下文的续写建议。用户可自由编辑模型输出，保留有用部分并修改不当内容，从而降低创作门槛、激发灵感。这种机器辅助的写作模式不仅适用于业余写作爱好者，也为专业写作培训或叙事设计教学提供了工具，通过人机协作探索叙事可能性，提升创作效率与叙事结构的多样性。

衍生相关工作

基于STORIUM数据集，研究者开展了一系列经典工作，推动了叙事生成领域的发展。例如，研究通过微调GPT-2等大规模预训练语言模型，并引入组合式片段嵌入技术来处理复杂的半结构化上下文。在模型优化方面，工作探索了利用Cassowary约束求解算法进行上下文令牌的高效打包策略，以应对长序列输入的限制。评估方法上，衍生了基于用户编辑行为的USER指标，其与人工评分的相关性分析为自动化评估创意文本提供了新见解。这些工作共同深化了对条件叙事生成、人机交互创作及长文本评估的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集