StoryWriter Dataset

github2025-06-18 更新2025-06-29 收录

下载链接：

https://github.com/THU-KEG/StoryWriter

下载链接

链接失效反馈

官方服务：

资源简介：

使用StoryWriter生成的大规模长故事数据集，包含约5,000个故事，平均每个故事长度为8,000字。

A large-scale long-form story dataset generated using StoryWriter, containing approximately 5,000 stories with an average length of 8,000 words each.

创建时间：

2025-06-18

原始信息汇总

StoryWriter数据集概述

数据集简介

StoryWriter是一个多智能体框架，专注于生成具有逻辑连贯性和吸引人情节的高质量长故事。该框架解决了当前大多数大型语言模型在长故事生成中面临的两大挑战：话语连贯性和叙事复杂性。

核心组件

大纲代理（Outline Agent）
- 生成基于事件的大纲，包含丰富的剧情、角色和事件间关系。
规划代理（Planning Agent）
- 将大纲分解为章节计划，确保叙事引人入胜且情节交织。
写作代理（Writing Agent）
- 动态压缩故事历史，生成与当前事件一致的连贯新内容。

数据集规模

故事数量：约5,000篇
平均长度：每篇8,000词

获取方式

样本故事下载
访问：Tsinghua huggingface Link
模型训练
使用LongWriter框架，替换原始训练JSON文件进行训练。

搜集汇总

数据集介绍

构建方式

StoryWriter数据集通过创新的多智能体框架构建，旨在解决长故事生成中的逻辑连贯性和情节吸引力两大核心挑战。该框架由三个核心组件构成：提纲智能体负责生成包含丰富情节、角色及事件关联的提纲；规划智能体将提纲分解为章节计划，确保叙事层次分明；写作智能体动态压缩历史内容以生成符合当前事件的新文本。通过这种分层协作机制，数据集最终收录了约5,000篇平均长度达8,000词的高质量长故事。

特点

该数据集在叙事深度和技术实现上具有显著优势。其故事文本不仅涵盖复杂的人物关系和交织情节，更通过事件驱动型提纲和动态历史压缩技术，实现了跨章节的语义一致性和逻辑自洽。与现有基线相比，数据集在人工评估和自动评测中均展现出更强的连贯性与吸引力，为长文本生成研究提供了具有挑战性的基准。每篇故事平均8,000词的规模，也为模型处理超长上下文能力提供了理想的测试平台。

使用方法

研究者可通过清华大学发布的HuggingFace链接获取故事样本，直观感受多智能体框架的生成效果。对于模型训练需求，建议使用配套的LongWriter工具包，将数据集JSON文件替换原始训练数据即可微调模型。该数据集特别适合用于测试模型在长程依赖捕捉、情节逻辑维持等方面的性能，也可作为强化学习智能体的模拟叙事环境。

背景与挑战

背景概述

StoryWriter数据集由清华大学知识工程组（KEG）于近年推出，旨在解决大语言模型在生成长篇故事时面临的逻辑连贯性和情节吸引力两大核心难题。该数据集构建于多智能体框架之上，通过提纲生成、章节规划和动态写作三个模块的协同工作，实现了对复杂叙事结构的系统性把控。作为目前规模最大的长文本故事生成数据集之一，StoryWriter包含约5000篇平均长度达8000词的故事文本，为自然语言生成领域提供了重要的研究基准，显著推动了叙事连贯性建模和长程依赖关系处理技术的发展。

当前挑战

在领域问题层面，StoryWriter直面叙事生成中语篇连贯维持与多线索情节编织的双重挑战。传统语言模型在长文本生成时易出现逻辑断层、角色行为不一致等问题，而该数据集通过事件提纲和章节分解的层次化结构，为建模跨篇章的语义关联提供了解决方案。数据构建过程中，研究团队需克服大规模高质量故事标注的获取难题，采用多智能体协同框架实现自动化生成与人工校验的结合，同时设计动态历史压缩机制以平衡上下文依赖与计算效率的矛盾。

常用场景

经典使用场景

在自然语言生成领域，StoryWriter数据集为研究长文本故事生成的连贯性和叙事复杂性提供了重要基准。该数据集通过多智能体框架生成的5000余篇平均长度达8000词的故事，成为测试大语言模型在长文本创作中保持逻辑一致性和情节吸引力的黄金标准。研究者常利用其丰富的角色关系与事件脉络，验证模型在跨章节叙事、人物塑造和伏笔回收等方面的表现。

衍生相关工作

该数据集催生了诸如LongWriter等专用训练框架的发展，推动学界提出基于动态历史压缩的生成算法改进。在ACL、EMNLP等顶会中，衍生出多篇研究长文本可控生成、叙事一致性评估的经典论文，部分工作进一步扩展了智能体协作框架在剧本生成、史诗创作等垂类领域的应用边界。

数据集最近研究