Tell Me A Story

github2024-11-22 更新2024-11-28 收录

下载链接：

https://github.com/google-deepmind/tell_me_a_story

下载链接

链接失效反馈

官方服务：

资源简介：

Tell Me A Story数据集是一个高质量的复杂写作提示和人类编写故事的数据集，用于评估长篇叙事的生成。该数据集分为训练、验证和测试三个部分，包含多个列，如提示和故事内容。

The Tell Me A Story Dataset is a high-quality dataset consisting of complex writing prompts and human-written stories, intended for evaluating long-form narrative generation. This dataset is split into three subsets: training, validation, and test, and includes multiple columns such as prompts and story content.

创建时间：

2024-10-29

原始信息汇总

Tell Me A Story 数据集

概述

Tell Me A Story 数据集用于论文《Agents Room: Narrative Generation through Multi-step Collaboration》。该数据集包含复杂的写作提示和人类编写的故事，旨在评估长篇叙事的生成。

数据集描述

格式：JSONL
下载地址：
- 训练集：https://storage.googleapis.com/tell-me-a-story/tell-me-a-story-train_encrypted.jsonl
- 验证集：https://storage.googleapis.com/tell-me-a-story/tell-me-a-story-validation_encrypted.jsonl
- 测试集：https://storage.googleapis.com/tell-me-a-story/tell-me-a-story-test_encrypted.jsonl
文件大小：约3MB

数据集解密

加密原因：防止数据集被自动化抓取工具抓取。
解密工具：使用Python包cryptography进行解密。
解密步骤：
1. 安装cryptography：pip install cryptography
2. 使用提供的Python脚本解密文件。

数据集列

train、validation、test三个数据集包含以下列：
- example_id (str)：每个输入提示的唯一标识符。
- inputs (str)：输入的写作提示。
- targets (str)：与写作提示对应的目标小说故事。

引用

如果使用此数据集，请引用以下论文： latex @article{huot2024agents, title={Agents Room: Narrative Generation through Multi-step Collaboration}, author={Huot, Fantine and Amplayo, Reinald Kim and Palomaki, Jennimaria and Jakobovits, Alice Shoshana and Clark, Elizabeth and Lapata, Mirella}, journal={arXiv preprint arXiv:2410.02603}, year={2024} }

许可

版权：2024 DeepMind Technologies Limited
许可协议：Creative Commons Attribution 4.0 International License (CC-BY)
许可链接：https://creativecommons.org/licenses/by/4.0/legalcode

搜集汇总

数据集介绍

构建方式

在构建**Tell Me A Story**数据集时，研究团队精心设计了复杂的写作提示，并收集了与之对应的人类创作的故事。这些故事不仅涵盖了丰富的情节和角色发展，还体现了语言的生动性和情感的深度。数据集的构建过程包括对原始文本的筛选、标注和加密处理，确保数据的高质量和安全性。通过这种方式，数据集为研究者提供了一个高质量的资源，用于评估和改进叙事生成模型。

使用方法

使用**Tell Me A Story**数据集时，用户首先需要下载加密的JSONL文件，并使用提供的对称密钥和私钥进行解密。解密过程通过Python的`cryptography`包实现，确保数据的安全访问。解密后的数据集包含三个主要字段：`example_id`、`inputs`和`targets`，分别对应每个提示的唯一标识符、输入提示和目标故事。用户可以根据这些字段进行模型的训练和评估，从而探索和优化叙事生成技术。

背景与挑战

背景概述

在叙事生成领域，创作引人入胜的虚构故事是一个多维度的过程，涉及情节构建、角色发展和语言表达等多个方面。尽管大型语言模型（LLMs）在故事写作方面展现出潜力，但其高度依赖复杂的提示设计，限制了其应用范围。为此，研究团队提出了**Agents' Room**框架，该框架受叙事理论启发，将叙事写作分解为多个子任务，由专门化的代理协作完成。为验证这一方法，团队创建了**Tell Me A Story**数据集，该数据集包含高质量的复杂写作提示和对应的人类创作故事，并设计了专门用于评估长篇叙事的评价框架。该数据集的发布旨在推动叙事生成技术的发展，通过分解复杂任务，提升生成故事的质量。

当前挑战

**Tell Me A Story**数据集在构建过程中面临多项挑战。首先，数据集的复杂性要求高质量的写作提示和对应的故事，这需要大量的人工创作和筛选。其次，为防止数据被自动化工具抓取，数据集采用了加密措施，增加了数据处理的复杂性。此外，数据集的评价框架需要能够准确评估长篇叙事的多个维度，这对评价方法的科学性和全面性提出了高要求。最后，数据集的发布和使用需遵循严格的版权和许可协议，确保数据集的合法性和可持续性。

常用场景

经典使用场景

在叙事生成领域，**Tell Me A Story**数据集的经典使用场景主要体现在其作为复杂写作提示与人类创作故事的配对集合，为研究者提供了一个高质量的资源库。该数据集通过详细的写作提示和对应的故事文本，帮助研究者训练和评估叙事生成模型，特别是在多步骤协作生成框架下，如何有效分解复杂的叙事任务，从而生成更符合人类审美的故事。

解决学术问题

**Tell Me A Story**数据集在学术研究中解决了叙事生成模型依赖复杂提示的局限性问题。通过提供高质量的写作提示与故事配对，该数据集促进了叙事生成任务的分解与专业化处理，使得模型能够更高效地生成连贯且富有创意的故事。这不仅提升了叙事生成模型的性能，也为相关领域的研究提供了新的评估框架和方法。

实际应用

在实际应用中，**Tell Me A Story**数据集可广泛应用于自动化故事创作、教育内容生成以及娱乐产业中的剧本编写等领域。通过利用该数据集训练的模型，可以生成多样化的故事内容，满足不同应用场景的需求。例如，在教育领域，可以生成个性化的阅读材料，帮助学生提高阅读理解能力；在娱乐产业，则可以辅助编剧快速生成创意剧本，提升创作效率。

数据集最近研究