qwedsacf/story-generation
收藏Hugging Face2023-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qwedsacf/story-generation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自RUCAIBox/Story-Generation数据集的摘要和故事。数据集主要用于故事生成任务,包含两个主要字段:`summary`(故事摘要)和`story`(故事内容)。数据集是单语言的(英语)。
提供机构:
qwedsacf
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 多语言性: 单语种
- 任务类别: 文本生成
- 标签: 故事生成
数据集结构
- 特征:
summary:故事摘要,数据类型为字符串story:故事内容,数据类型为字符串source:来源信息,数据类型为字符串
数据集大小
- 训练集:
- 示例数量:427223
- 数据大小:385345341字节
- 下载大小: 213423683字节
- 数据集总大小: 385345341字节
- 规模类别: 100K<n<1M
搜集汇总
数据集介绍

构建方式
该数据集源自RUCAIBox/Story-Generation数据集,由Laion AI团队整理与重构,专为英文故事生成任务设计。其构建方式聚焦于从原始数据中提取摘要与故事成对文本,形成结构化的训练样本。数据以简洁的字段形式组织,包含摘要、故事正文及来源标识,共收录超过42万条样本,总数据量达385MB,确保了模型训练所需的规模与多样性。
特点
数据集的核心特点在于其明确的成对结构,每一条数据均包含一个精炼的故事摘要与对应的完整故事文本,这为基于摘要的故事生成模型提供了天然的监督信号。此外,数据来源单一且高质量,来自知名的RUCAIBox项目,保证了文本的一致性与可用性。数据集仅包含训练分割,便于直接用于微调或评估生成任务。
使用方法
使用该数据集时,用户可直接加载训练分割,利用`summary`字段作为输入条件,`story`字段作为目标输出,训练序列到序列或条件语言模型。推荐采用标准文本生成框架,将摘要拼接至提示模板后输入模型,生成连贯的故事。数据集已预处理好,无需额外清洗,适合快速开展故事生成实验或下游应用开发。
背景与挑战
背景概述
故事生成作为自然语言处理领域的重要分支,旨在让机器能够根据给定的摘要或提示自动创作连贯、富有逻辑的叙事文本。该领域的研究可追溯至早期基于模板的生成方法,但随着深度学习与大语言模型的崛起,数据驱动的故事生成成为主流。qwedsacf/story-generation数据集由LAION团队整理,其原始数据源自RUCAIBox/Story-Generation项目,创建于大规模预训练模型兴起的时期。核心研究问题聚焦于如何利用摘要-故事对来训练模型理解叙事结构、事件因果与角色动态,从而生成具有可读性和创造性的故事。该数据集包含超过42万条样本,规模介于100K至1M之间,为故事生成研究提供了丰富的训练资源,对推动可控叙事生成与多风格文本创作具有重要影响力。
当前挑战
该数据集所解决的领域挑战主要在于故事生成中的长文本连贯性与语义一致性,即模型需从简短摘要中推断出完整情节,避免逻辑断裂或重复冗余。构建过程中面临的挑战包括:1) 数据来源多样性不足,原始数据集可能偏向特定文体或主题,导致模型泛化能力受限;2) 摘要与故事之间的对应关系存在噪声,部分样本可能存在摘要与故事内容不匹配或细节缺失的问题;3) 数据规模虽大,但缺乏精细的标注信息(如情感、事件链),难以支撑复杂的叙事结构学习;4) 文本长度分布不均,长故事样本的稀缺可能影响模型对长篇叙事的生成质量。这些挑战共同制约了故事生成模型在开放域场景中的表现与实用性。
常用场景
经典使用场景
在自然语言处理与创意写作的交汇领域,故事生成数据集为机器叙事能力的培育提供了关键基石。该数据集包含超过42万条摘要与故事配对样本,其经典使用场景集中于基于摘要的文本生成任务,即给定一段简洁的情节概要,模型需自动扩展为结构完整、语义连贯的长篇故事。这一设定不仅考验语言模型对因果逻辑与事件时序的建模能力,还要求其具备人物刻画、场景渲染与情感递进等高级叙事技巧,因而成为评估生成式预训练模型叙事智能的标杆性基准。
实际应用
在实际应用层面,该数据集为智能写作辅助工具、交互式叙事系统和个性化内容推荐引擎提供了坚实的技术支撑。例如,在数字出版领域,编辑可借助基于该数据集训练的模型快速生成故事草稿,再人工润色以提升创作效率;在教育场景中,系统可根据学生提供的简短情节自动生成完整故事,辅助写作教学与语言习得。此外,游戏行业亦将其用于生成动态剧情分支,使非玩家角色的对话与事件发展更具丰富性与沉浸感,从而提升用户体验的深度与黏性。
衍生相关工作
围绕该数据集,学术界已涌现出一系列具有影响力的衍生工作。在模型架构层面,研究者提出了融合摘要编码与故事解码的端到端框架,如基于Transformer的层次化生成模型,通过显式建模摘要与故事之间的语义映射关系来提升叙事质量。在训练策略上,对比学习与强化学习被引入故事生成任务,以鼓励模型生成更具多样性和惊喜感的故事情节。此外,该数据集还催生了面向故事结尾预测、人物关系推理等下游任务的专项研究,进一步拓展了机器叙事理解的疆域。
以上内容由遇见数据集搜集并总结生成



