TinyStories

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/Sooraj8423/TinyStories

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含由GPT-3.5和GPT-4合成的短篇故事，这些故事仅使用少量词汇。该数据集在相关论文中有所描述，并提供了用于训练、验证和评估的各种文件。此外，还提到了一个改进版本的数据集（TinyStoriesV2），该版本仅包含由GPT-4生成的故事。

This dataset comprises short stories synthesized by GPT-3.5 and GPT-4, which utilize only a limited vocabulary. The dataset is documented in the relevant academic paper, with various files available for training, validation and evaluation purposes. Additionally, an improved version of the dataset, TinyStoriesV2, is mentioned, which exclusively contains stories generated by GPT-4.

创建时间：

2025-12-17

原始信息汇总

TinyStories 数据集概述

数据集基本信息

许可证：CDLA-Sharing 1.0
任务类别：文本生成
语言：英语

数据集描述

该数据集包含由GPT-3.5和GPT-4合成生成的短篇故事，这些故事仅使用少量词汇。

核心数据文件

TinyStories-train.txt：论文中提到的模型训练所使用的文件。
tinystories-valid.txt：可用于验证损失的文件。

预训练模型

基于此数据集训练的模型可在Huggingface上获取，具体位于：roneneldan/TinyStories-1M/3M/8M/28M/33M/1Layer-21M。

附加资源

tinystories_all_data.tar.gz：包含故事的超集，以及元数据和用于创建每个故事的提示。
TinyStoriesV2-GPT4-train.txt：数据集的新版本，仅基于GPT-4生成（原始数据集也包含质量较低的GPT-3.5生成内容）。它包含TinyStories.txt中所有GPT-4生成的示例作为子集，但规模显著更大。
Evaluation_prompts.yaml：用于评估模型的提示列表（参见论文）。

搜集汇总

数据集介绍

构建方式

在自然语言生成领域，高质量训练数据的稀缺性促使研究者探索合成数据生成的新途径。TinyStories数据集的构建采用了前沿的大语言模型技术，通过GPT-3.5和GPT-4自动生成大量短篇故事文本。这些故事严格限定于使用有限的词汇表，旨在模拟儿童文学的语言复杂度。生成过程中，每个故事均基于特定提示词创作，并附带完整的元数据记录，确保了数据来源的可追溯性与生成过程的透明度。

特点

该数据集的核心特点在于其精心设计的语言简化机制，所有故事仅使用基础词汇，降低了语言模型的习得门槛。数据规模具有梯度性，提供了从百万到千万级别的不同版本，适应多样化的实验需求。值得注意的是，后续推出的V2版本完全基于GPT-4生成，在叙事连贯性与语言质量上实现了显著提升，为研究者提供了更纯净的高质量语料。

使用方法

使用该数据集时，研究者可直接将TinyStories-train.txt文件用于模型训练，并以tinystories-valid.txt进行验证损失计算。数据集适用于文本生成任务的模型预训练与能力评估，特别是研究模型在受限词汇下的语言理解与创作能力。附带的评估提示列表为模型性能的标准化测试提供了基准，而包含完整元数据的压缩文件则支持深入的生成过程分析与可控性研究。

背景与挑战

背景概述

在自然语言处理领域，评估大型语言模型在复杂任务上的性能往往需要依赖大规模、高质量的数据集，然而这类数据集的构建成本高昂，且可能引入难以控制的噪声。TinyStories数据集于2023年由研究人员Ronen Eldan提出，其核心研究问题聚焦于探索语言模型是否能够仅通过理解简单词汇和基础语法来生成连贯的叙事文本。该数据集通过GPT-3.5和GPT-4模型合成生成，仅使用有限词汇构成短篇故事，旨在为模型的可解释性和语言习得机制研究提供一种轻量化的评估工具，对推动语言模型的基础能力分析产生了显著影响。

当前挑战

TinyStories数据集旨在应对自然语言生成领域中模型可解释性评估的挑战，传统大型数据集虽能驱动模型性能提升，却难以剥离词汇复杂性与语法结构对模型能力的影响，使得研究者无法清晰辨识模型是否真正掌握了语言的基本逻辑。在构建过程中，挑战主要源于生成故事的质量控制与一致性维护，早期版本混合了GPT-3.5和GPT-4的生成结果，两者在叙事连贯性和语言准确性上存在差异，这可能导致训练数据的不均衡；此外，确保生成内容严格限定于预设的小词汇集内，同时保持故事的多样性与趣味性，也是一项技术上的难点。

常用场景

经典使用场景

在自然语言处理领域，TinyStories数据集专为评估语言模型在受限词汇环境下的文本生成能力而设计。其核心应用场景在于训练和测试小型语言模型，特别是针对儿童故事生成任务，通过使用GPT-3.5和GPT-4合成的简短故事，仅依赖有限词汇量，为模型提供了清晰的结构化学习目标。这一设置使得研究人员能够深入探究模型在简化语境中的语言理解与生成机制，为模型效率与可解释性研究奠定基础。

衍生相关工作

围绕TinyStories数据集，学术界衍生了一系列经典研究工作。例如，原始论文中提出的不同参数规模模型（如1M至33M参数版本）系统探索了模型大小与故事生成质量的关系；后续研究则利用其评估框架分析模型的语言归纳偏差或进行零样本学习实验。这些工作不仅深化了对小型语言模型能力的认识，还促进了高效训练方法、模型压缩技术等领域的发展，为资源优化的人工智能系统设计提供了重要参考。

数据集最近研究