TinyStories

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/davanstrien/awesome-synthetic-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TinyStories是一个合成数据集，包含只有3到4岁儿童通常理解的单词的短故事，由GPT-3.5和GPT-4生成。该数据集可用于训练和评估远小于当前最先进模型（总参数少于1000万）或具有更简单架构（仅一个transformer块）的LMs，这些模型仍能生成流畅、一致、多样且几乎完美语法的故事，并展示推理能力。

TinyStories is a synthetic dataset comprising short stories that are typically understood by children aged 3 to 4, generated by GPT-3.5 and GPT-4. This dataset can be utilized to train and evaluate language models (LMs) that are significantly smaller than the current state-of-the-art models (with fewer than 10 million parameters) or have simpler architectures (consisting of only one transformer block). These models are still capable of generating fluent, coherent, diverse, and nearly grammatically perfect stories, demonstrating reasoning abilities.

创建时间：

2024-02-22

原始信息汇总

数据集概述

重要数据集

TinyStories
- 描述: 一个合成数据集，包含仅使用3至4岁儿童通常理解的词汇编写的短故事，由GPT-3.5和GPT-4生成。
- 用途: 用于训练和评估比当前最先进模型更小或架构更简单的语言模型，这些模型仍能生成流畅、一致且语法几乎完美的多段落故事，并展示推理能力。
OpenHermes-2.5
- 描述: Open Hermes 2.5数据集是Open Hermes 1的延续，规模更大、更多样化、质量更高，包含100万条主要合成生成的指令和聊天样本。
Cosmopedia
- 描述: 一个包含合成教科书、博客文章、故事、WikiHow文章的数据集，由Mixtral-8x7B-Instruct-v0.1生成。包含超过3000万文件和250亿个令牌，是目前最大的开放合成数据集。
WebSight
- 描述: 一个大型合成数据集，包含代表合成生成的英语网站的HTML/CSS代码，每个网站都附有相应的截图。
synthetic_text_to_sql
- 描述: 一个高质量的合成Text-to-SQL样本数据集，使用Gretel Navigator设计和生成。
Salesforce/xlam-function-calling-60k
- 描述: 一个包含60,000个跨21个类别和3,673个API的生成函数调用示例的数据集。

重要技术

Self-Instruct
- 描述: 一种技术，用于通过自我生成的指令来调整语言模型。
Generating custom sentence similarity datasets
- 描述: 一种基于描述的相似性生成定制句子相似性数据集的方法。

重要论文

Textbooks Are All You Need
- 描述: 论文讨论了使用合成教科书数据集进行语言模型训练的重要性。
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
- 描述: 论文探讨了即使语言模型规模较小，也能生成连贯英语的能力。
Self-Instruct: Aligning Language Model with Self Generated Instructions
- 描述: 论文介绍了通过自我生成的指令来调整语言模型的方法。
WizardLM: Empowering Large Language Models to Follow Complex Instructions
- 描述: 论文讨论了如何使大型语言模型能够遵循复杂的指令。
Improving Text Embeddings with Large Language Models
- 描述: 论文探讨了使用大型语言模型改进文本嵌入的方法。
Extensive Self-Contrast Enables Feedback-Free Language Model Alignment
- 描述: 论文介绍了通过广泛自我对比实现无需反馈的语言模型对齐的方法。
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing
- 描述: 论文讨论了通过提示对齐的大型语言模型从零开始合成对齐数据的方法。

搜集汇总

数据集介绍

构建方式

TinyStories数据集的构建基于GPT-3.5和GPT-4模型，通过算法生成了一系列简短的故事。这些故事特别设计为仅包含3至4岁儿童通常理解的词汇，旨在模拟幼儿的语言环境。生成过程中，模型被引导以确保故事的流畅性、语法正确性以及多样性，从而为语言模型的训练和评估提供了一个独特的合成数据源。

使用方法

TinyStories数据集适用于多种语言模型的训练和评估任务。研究者可以利用这些简短且语法正确的故事来训练参数少于1000万的小型模型，或使用简单架构的模型，以验证其在生成连贯和多样化故事方面的能力。此外，该数据集也可用于测试模型在有限词汇环境下的表现，从而推动语言模型在特定应用场景中的发展。

背景与挑战

背景概述

TinyStories数据集是由GPT-3.5和GPT-4生成的一个合成数据集，专注于创建适合3至4岁儿童理解的短篇故事。该数据集的核心研究问题在于探索语言模型在极小规模（低于1000万参数）和简单架构（仅包含一个Transformer块）下，是否仍能生成流畅、语法正确且具有推理能力的故事。TinyStories的创建旨在推动小型语言模型的发展，并评估其在复杂任务中的表现，对语言模型研究领域具有重要影响。

当前挑战

TinyStories数据集在构建过程中面临的主要挑战包括：1) 确保合成数据的质量和多样性，以模拟真实世界的数据；2) 在极小规模和简单架构下，维持语言模型的生成能力和推理能力；3) 评估这些小型模型在实际应用中的效能。此外，合成数据的生成依赖于大型语言模型，这带来了计算资源和时间成本的挑战。

常用场景

经典使用场景

TinyStories数据集的经典使用场景在于其能够用于训练和评估小型语言模型（LM）。这些模型通常具有少于1000万个参数，或仅包含一个转换器块，但仍能生成流畅、连贯且语法几乎完美的短故事。通过TinyStories，研究人员可以探索在资源受限的环境中，如何利用合成数据提升模型的表现，特别是在推理能力和多样性表达方面。

解决学术问题

TinyStories数据集解决了在资源有限的情况下，如何有效训练和评估语言模型的学术问题。传统上，大规模语言模型需要庞大的计算资源和数据集，而TinyStories通过提供高质量的合成数据，使得小型模型也能达到接近最先进模型的表现。这不仅降低了训练成本，还推动了模型在简单架构下的创新研究，具有重要的学术意义和影响。

实际应用

在实际应用中，TinyStories数据集可用于开发教育领域的语言模型，特别是针对幼儿教育。通过生成适合3至4岁儿童理解的短故事，这些模型可以用于智能教育工具、互动故事书和语言学习应用中。此外，TinyStories还可应用于资源受限的设备，如移动设备和嵌入式系统，提供高效的语言处理能力。

数据集最近研究