smollm-12.5-corpus

Hugging Face2024-08-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/chengjunyan1/smollm-12.5-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是SmolLM Corpus的1/8高质量子集，专门用于训练Chinchilla-optimal的GPT-2规模模型（小于1.5B参数），适合验证模型架构在缩放定律下的性能。数据集包含来自cosmopedia-v2、fineweb-edu-dedup和python-edu三个配置的数据，每个配置具有特定的特征，并分为训练、评估和测试集，具有指定的示例数量和字节数。数据集遵循Pile的数据采样方法，并移除训练集中的逐字重复内容。

This dataset is a high-quality 1/8 subset of the SmolLM Corpus, specifically designed for training Chinchilla-optimal GPT-2 sized models with fewer than 1.5 billion parameters, and is ideal for validating the performance of model architectures under scaling laws. It contains data from three configurations: cosmopedia-v2, fineweb-edu-dedup, and python-edu. Each configuration has distinct characteristics, and the dataset is split into training, validation, and test sets with specified example counts and byte counts. The dataset adopts the data sampling methodology of the Pile, and removes all verbatim duplicate content from the training set.

创建时间：

2024-08-08

原始信息汇总

SmolLM-1/8-Corpus 数据集概述

数据集描述

SmolLM-1/8-Corpus 是 SmolLM Corpus 的高质量子集，用于训练 Chinchilla-optimal GPT-2 规模（小于 1.5B）的模型。该数据集适合验证模型架构在缩放定律下的表现。首先从 FineWeb-edu-dedup 中筛选出 int_score >= 4 的样本，然后保持与 SmolLM 相同的训练混合分布。其中 FineWeb-Edu-dedup 占据了数据集的约 70%。然后根据比例采样其他数据集。对于 Python-Edu，int_score 的截止值也设置为 4。所有随机种子均为 42。

数据集配置

cosmopedia-v2

特征:
- prompt: 字符串
- text: 字符串
- token_length: 整数
- audience: 字符串
- format: 字符串
- seed_data: 字符串
分割:
- train: 26389065276.651917 字节, 4859727 样本
- eval: 328795815.588257 字节, 60550 样本
- test: 328795815.588257 字节, 60550 样本
下载大小: 15636874921 字节
数据集大小: 27046656907.82843 字节

fineweb-edu-dedup

特征:
- text: 字符串
- id: 字符串
- metadata: 结构体
  - dump: 字符串
  - url: 字符串
  - date: 时间戳
  - file_path: 字符串
  - language: 字符串
  - language_score: 浮点数
  - token_count: 整数
  - score: 浮点数
  - int_score: 整数
分割:
- train: 118135317002 字节, 22701367 样本
- eval: 1422835185.437349 字节, 282567 样本
- test: 1422835185.437349 字节, 282567 样本
下载大小: 68445793201 字节
数据集大小: 120980987372.8747 字节

python-edu

特征:
- blob_id: 字符串
- repo_name: 字符串
- path: 字符串
- length_bytes: 整数
- score: 浮点数
- int_score: 整数
- token_counts: 整数
分割:
- train: 1025332476 字节, 7491902 样本
- eval: 12709299 字节, 93253 样本
- test: 12714839 字节, 93253 样本
下载大小: 674441595 字节
数据集大小: 1050756614 字节

数据文件

cosmopedia-v2:
- train: cosmopedia-v2/train-*
- eval: cosmopedia-v2/eval-*
- test: cosmopedia-v2/test-*
fineweb-edu-dedup:
- train: fineweb-edu-dedup/train-*
- eval: fineweb-edu-dedup/eval-*
- test: fineweb-edu-dedup/test-*
python-edu:
- train: python-edu/train-*
- eval: python-edu/eval-*
- test: python-edu/test-*

搜集汇总

数据集介绍

构建方式

SmolLM-12.5-Corpus数据集的构建基于SmolLM Corpus的高质量子集，旨在训练Chinchilla-optimal GPT-2规模模型。首先从FineWeb-edu-dedup中筛选出int_score≥4的样本，保持与SmolLM相同的训练分布，其中FineWeb-Edu-dedup占语料库的70%。其他数据集如Python-Edu、OpenWebMath、DeepMindMath-small和StackOverFlow则根据特定比例随机采样，所有随机种子均设置为42。测试集和评估集分别从原始SmolLM Corpus中随机抽取1GB数据，并确保与训练集无重复内容。

使用方法

SmolLM-12.5-Corpus适用于训练和验证GPT-2规模的语言模型。用户可以通过Hugging Face平台下载数据集，并根据需要选择不同的配置进行训练。训练集可用于模型的初始训练，测试集和评估集则用于模型的性能评估和调优。由于数据集已经过严格的筛选和比例控制，用户可以直接使用而无需进行额外的预处理。此外，数据集的分割和配置信息清晰，便于用户根据具体需求进行灵活调整。

背景与挑战

背景概述

SmolLM-12.5-Corpus数据集是SmolLM Corpus的一个高质量子集，旨在训练Chinchilla-optimal GPT-2规模的模型，适用于验证模型架构在扩展定律下的表现。该数据集由多个子数据集组成，包括FineWeb-edu-dedup、Cosmopedia-v2、Python-Edu、OpenWebMath、StackOverFlow和DeepMindMath-small，其中FineWeb-edu-dedup占据了约70%的比例。数据集的构建遵循了Pile数据集的方法，确保了训练、测试和评估集的独立性。该数据集的创建时间为近期，主要研究人员和机构包括HuggingFace团队，其核心研究问题在于如何通过高质量数据子集优化模型训练，提升模型在特定任务上的表现。

当前挑战

SmolLM-12.5-Corpus数据集在构建过程中面临多重挑战。首先，数据筛选的复杂性较高，需要从多个来源的子数据集中提取高质量样本，并确保各子数据集的比例符合预设的混合比例。其次，数据去重和清洗工作量大，特别是在处理StackOverFlow等社区生成内容时，需确保数据的纯净性和一致性。此外，数据集的规模庞大，存储和处理的资源需求较高，如何在有限的计算资源下高效完成数据预处理和模型训练也是一个重要挑战。最后，数据集的多样性和代表性需得到保证，以确保模型在不同任务和场景下的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，smollm-12.5-corpus数据集常用于训练和验证小规模语言模型，特别是Chinchilla-optimal GPT-2规模的模型。该数据集通过精选高质量样本，确保了模型在有限参数下的性能优化，适用于模型架构的初步验证和调优。

解决学术问题

该数据集解决了在小规模模型训练中数据质量与多样性平衡的难题。通过筛选高评分样本并保持数据分布的均衡，研究者能够更准确地验证模型在缩放定律下的表现，推动了小规模语言模型的理论研究和实践应用。

实际应用

smollm-12.5-corpus在实际应用中广泛用于教育技术、代码生成和数学问题求解等领域。其高质量的教育类数据和编程相关文本为开发智能辅导系统和代码辅助工具提供了坚实的基础，显著提升了相关应用的准确性和实用性。

数据集最近研究