five

TinyStories

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/HayatoHongo/TinyStories
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由GPT-3.5和GPT-4生成的使用有限词汇的合成短故事。数据集的一个新版本基于仅由GPT-4生成的内容,包含比原数据集更大的子集。数据集适用于文本生成任务,并提供了相关的元数据和评估提示文件。
创建时间:
2025-10-23
原始信息汇总

TinyStories数据集概述

数据集基本信息

  • 许可证:CDLA-Sharing 1.0
  • 任务类别:文本生成
  • 语言:英语

数据集描述

包含使用小词汇量生成的合成短故事,由GPT-3.5和GPT-4生成。

相关论文

  • 论文链接:https://arxiv.org/abs/2305.07759

核心数据文件

  • TinyStories-train.txt:训练数据文件
  • tinystories-valid.txt:验证数据文件

预训练模型

在Huggingface平台提供的训练模型:

  • roneneldan/TinyStories-1M/3M/8M/28M/33M/1Layer-21M

附加资源

  • tinystories_all_data.tar.gz:包含故事超集、元数据及每个故事的生成提示
  • TinyStoriesV2-GPT4-train.txt:仅基于GPT-4生成的新版本数据集,包含原始GPT-4生成示例的超集
  • Evaluation_prompts.yaml:用于模型评估的提示列表
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言生成研究领域,TinyStories数据集通过合成文本生成技术构建而成。该数据集由GPT-3.5与GPT-4模型协同创作,生成仅使用有限词汇的短篇故事。构建过程中采用特定提示模板引导模型生成内容,并额外提供包含完整元数据的扩展版本,确保数据来源的透明性与可追溯性。
特点
该数据集的核心特征体现在其精心设计的语言复杂度控制。所有故事均严格限定于基础词汇构成,为研究儿童语言习得与简化文本生成机制提供理想实验环境。数据集包含多规模版本与纯GPT-4生成的高质量子集,其层次化结构支持从基础到复杂的模型能力评估。
使用方法
研究者可依据不同需求灵活调用数据集资源。训练阶段建议采用TinyStories-train.txt作为主要语料,验证集则对应tinystories-valid.txt文件。评估环节可结合Evaluation_prompts.yaml中的标准提示词,系统检验模型在简化叙事任务上的表现。扩展包中的元数据更支持深入的生成过程溯源分析。
背景与挑战
背景概述
在自然语言处理领域,儿童语言习得研究长期受限于真实语料采集的伦理与技术瓶颈。TinyStories数据集由Ronen Eldan于2023年提出,通过GPT-3.5与GPT-4生成仅使用有限词汇的合成故事,旨在探索大语言模型在简化语言环境下的叙事能力。该数据集通过控制词汇复杂度与句法结构,为研究语言模型的泛化性能与认知机制提供了标准化实验平台,显著推动了可解释性人工智能与教育技术领域的交叉研究。
当前挑战
该数据集致力于解决儿童叙事理解任务的语义连贯性建模难题,其核心挑战在于如何确保生成文本在词汇受限条件下保持逻辑自洽与情节完整性。构建过程中面临双重困境:一方面需通过提示工程平衡生成文本的简练性与丰富性,另一方面需处理不同版本生成模型(GPT-3.5与GPT-4)的质量差异,这促使后续推出纯GPT-4生成的优化版本以提升数据一致性。
常用场景
经典使用场景
在自然语言处理领域,TinyStories数据集被广泛用于评估和优化轻量级语言模型的文本生成能力。该数据集通过合成生成的短篇故事,仅使用有限词汇,为研究模型在资源受限环境下的表现提供了理想平台。经典应用场景包括测试模型对简单语法结构和叙事逻辑的理解,帮助研究者探索模型如何从少量数据中学习语言模式。
实际应用
在教育技术领域,TinyStories可作为儿童语言学习工具的测试基准,其简明的叙事结构适合用于评估教育类AI的交互质量。在嵌入式设备场景中,该数据集支撑了轻量级语言模型的部署验证,使智能助手等应用能在低资源环境中保持流畅的文本生成能力。这些实践显著拓展了AI技术在边缘计算场景的适用边界。
衍生相关工作
基于TinyStories衍生的经典研究包括罗南·埃尔丹团队开发的系列参数量化模型,如TinyStories-1M至33M等架构。这些工作系统论证了小规模模型的语言涌现能力,启发了后续如SmallStories等数据集的创建。相关研究还推动了知识蒸馏技术在轻量级模型中的应用,形成了一条专注于高效语言建模的技术路线。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作