tinystories2

Hugging Face2025-01-05 更新2025-01-06 收录

下载链接：

https://huggingface.co/datasets/Geralt-Targaryen/tinystories2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成的故事数据集，包含884,626个儿童故事和2,520,247个一般故事。这些故事已经过清理、去重，并与TinyStories数据集进行了交叉去重。此外，该数据集还针对多个基准测试进行了去污染处理，包括GLUE、SIQA、PIQA等。在此过程中，移除了715个文档。下载的parquet文件大小为5.6G。

This dataset is a synthetic story dataset comprising 884,626 children's stories and 2,520,247 general stories. All stories have been cleaned, deduplicated, and cross-deduplicated against the TinyStories dataset. Additionally, this dataset has undergone data decontamination for multiple benchmark datasets including GLUE, SIQA, PIQA, and others, during which 715 documents were removed. The downloaded Parquet files have a total size of 5.6 GB.

创建时间：

2024-12-28

原始信息汇总

数据集概述

数据集名称

TinyStories2

数据集类型

合成故事数据集

数据集内容

包含884,626个儿童故事和2,520,247个通用故事。
这些故事已经过清洗、去重，并与TinyStories数据集进行了交叉去重。

数据集去污染

数据集已针对以下基准测试进行了去污染处理，基于n-gram重叠：
- GLUE（SST-2、CoLA、QQP、WNLI、RTE、QNLI、MNLI的开发集；MPRC的测试集）
- SIQA、PIQA、QASC、CSQA、HellaSWAG（所有开发集）
- CONLL 2003
- BLIMP
- MAIN
- BoolQ（开发集）
- WinoGrande（开发集）
- ANLI（测试集）
- ARC easy和challenge（测试集）
- RACE middle和high（测试集）
- MMLU（开发、验证和测试集）
- MATH、GSM8K（测试集）
- HumanEval（测试集）
- MBPP（所有974个问题）
- GPQA（diamond）
在此步骤中移除了715个文档。

数据集大小

下载的parquet文件大小为5.6G。

许可证

Apache-2.0

搜集汇总

数据集介绍

构建方式

tinystories2数据集的构建过程体现了高度的数据整合与清洗技术。该数据集综合了来自儿童故事和普通故事的两个大型集合，共计超过340万条故事。在数据预处理阶段，不仅进行了内部去重，还针对TinyStories数据集进行了交叉去重，确保了数据的唯一性。此外，通过n-gram重叠检测方法，数据集进一步剔除了与多个基准测试集（如GLUE、SIQA等）相关的715个文档，从而显著提升了数据的纯净度。

特点

tinystories2数据集以其大规模和高质量著称，涵盖了广泛的故事类型，适合用于自然语言处理的多项任务。数据集的独特之处在于其严格的去重和去污染流程，确保了数据的多样性和独立性。此外，数据集的总大小达到5.6G，提供了丰富的训练材料，能够支持复杂的模型训练和评估。

使用方法

tinystories2数据集适用于多种自然语言处理任务，如文本生成、情感分析和语言模型训练。用户可以通过下载parquet格式的文件，直接加载到数据处理框架中进行使用。数据集的结构清晰，便于进行批量处理和特征提取。对于研究人员和开发者而言，该数据集提供了一个理想的实验平台，以探索和验证新的算法和模型。

背景与挑战

背景概述

tinystories2数据集是一个合成故事数据集，由ajibawa-2023团队于2023年创建，旨在为自然语言处理领域提供高质量的故事文本资源。该数据集包含884,626篇儿童故事和2,520,247篇通用故事，经过严格的清洗和去重处理，并与TinyStories数据集进行了交叉去重。其核心研究问题在于如何通过大规模、多样化的故事文本，提升语言模型的生成能力和理解能力。该数据集的发布为文本生成、故事理解等任务提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

tinystories2数据集在构建过程中面临多重挑战。首先，数据清洗和去重是核心难题，需确保数据的高质量和独特性，避免与现有基准数据集（如GLUE、SIQA等）产生重叠。其次，数据去污染处理要求对多个基准测试集进行n-gram重叠分析，以确保数据在模型训练中的纯净性。此外，数据集规模庞大（5.6G），对存储和计算资源提出了较高要求。这些挑战不仅考验了数据处理的技术能力，也为未来大规模文本数据集的构建提供了宝贵的经验。

常用场景

经典使用场景

在自然语言处理领域，tinystories2数据集被广泛用于训练和评估故事生成模型。由于其包含了大量经过清洗和去重的儿童故事和一般故事，该数据集特别适合用于研究如何生成连贯且富有创意的文本。研究人员可以利用这些故事来训练模型，使其能够理解和生成符合人类语言习惯的叙事文本。

衍生相关工作

基于tinystories2数据集，研究人员已经开发了多种先进的文本生成模型和算法。例如，一些研究利用该数据集训练了基于Transformer的生成模型，这些模型在生成连贯且富有创意的故事方面表现出色。此外，该数据集还被用于研究如何通过多任务学习提升模型的泛化能力，以及如何通过对抗训练提高生成文本的质量和多样性。

数据集最近研究