HuggingFaceTB/smollm-corpus

Name: HuggingFaceTB/smollm-corpus
Creator: HuggingFaceTB
Published: 2024-09-06 07:04:57
License: 暂无描述

Hugging Face2024-09-06 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/HuggingFaceTB/smollm-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

SmolLM-Corpus数据集是一个精心策划的高质量教育和合成数据集合，专为训练小型语言模型而设计。该数据集包含三个子集：Cosmopedia v2、Python-Edu和FineWeb-Edu (deduplicated)。Cosmopedia v2是最大的合成数据集，包含超过3900万条生成的教科书、博客文章和故事，主要用于预训练。Python-Edu包含评分较高的Python教育代码文件，这些文件从stack-v2-train数据集中提取。FineWeb-Edu (deduplicated)是一个去重后的教育网页数据集，包含2200亿个令牌的高质量教育内容。

This dataset is a curated collection of high-quality educational and synthetic data designed for training small language models. It includes three subsets: Cosmopedia v2, Python-Edu, and FineWeb-Edu (deduplicated). Cosmopedia v2 is the largest synthetic dataset for pre-training, consisting of over 39 million textbooks, blog posts, and stories. The Python-Edu subset contains Python files scored 4 or more by an educational code model. FineWeb-Edu (deduplicated) is a deduplicated subset of educational web pages, containing 220 billion tokens.

提供机构：

HuggingFaceTB

原始信息汇总

SmolLM-Corpus 数据集概述

数据集子集

Cosmopedia v2

特征:
- prompt (string): 用于生成文本的输入提示。
- text (string): 生成的文本内容。
- token_length (int64): 文本的token长度（使用Mistral-7B tokenizer）。
- audience (string): 内容的预期受众。
- format (string): 内容的格式（例如，教科书、故事）。
- seed_data (string): 用于生成文本的种子样本。
数据分割:
- train: 包含39,134,000个样本，总大小为212,503,640,747字节。
下载大小: 122,361,137,711字节。
数据集大小: 212,503,640,747字节。

Python-Edu

特征:
- blob_id (string): 文件在AWS S3上的Software Heritage (SWH) ID。
- repo_name (string): GitHub上的仓库名称。
- path (string): 仓库内的文件路径。
- length_bytes (int64): 文件内容的UTF-8字节长度。
- score (float32): 教育评分模型的输出。
- int_score (uint8): 四舍五入的教育评分。
数据分割:
- train: 包含7,678,448个样本，总大小为989,334,135字节。
下载大小: 643,903,049字节。
数据集大小: 989,334,135字节。

FineWeb-Edu (deduplicated)

特征:
- text (string): 网页的文本内容。
- id (string): 网页的唯一ID。
- metadata (struct): 网页的元数据，包括：
  - dump (string): 源CommonCrawl dump。
  - url (string): 网页的URL。
  - date (timestamp[s]): 网页被捕获的日期。
  - file_path (string): commoncrawl快照的文件路径。
  - language (string): 网页的语言。
  - language_score (float64): 语言概率。
  - token_count (int64): 网页的token数量（使用gpt2 tokenizer）。
  - score (float64): 教育质量评分。
  - int_score (int64): 四舍五入的教育质量评分。
数据分割:
- train: 包含190,168,005个样本，总大小为957,570,164,451字节。
下载大小: 550,069,279,849字节。
数据集大小: 957,570,164,451字节。

语言

英语 (en)

搜集汇总

数据集介绍

构建方式

在语言模型预训练领域，数据质量与多样性至关重要。SmolLM-Corpus的构建采用了多源融合与精细筛选的策略，其核心子集Cosmopedia v2通过指令微调模型Mixtral-8x7B-Instruct-v0.1，以特定主题的网页为种子样本，生成了超过3900万份涵盖教科书、博客和故事的高质量合成文本。Python-Edu子集则从大型代码库中提取，并利用专门的教育评分模型筛选出得分较高的Python文件。FineWeb-Edu-Dedup子集源自CommonCrawl网页语料，经过教育质量分类器过滤与去重处理，保留了最具教育价值的网页内容。整个数据集的构建过程体现了对数据来源、生成逻辑与质量控制的系统性考量。

特点

该数据集在小型语言模型训练资源中展现出鲜明的特色。其首要特征在于高度的领域针对性，专注于教育类与合成数据，为模型注入结构化知识。数据规模庞大且构成多元，Cosmopedia v2提供了丰富的合成文本，FineWeb-Edu-Dedup则贡献了海量经过筛选的真实网页语料，而Python-Edu补充了高质量的编程教育数据。每个数据样本均附有详尽的元数据，如生成提示、目标受众、内容格式、质量评分及来源信息，为训练过程的精细化控制与可解释性研究提供了坚实基础。这种多维度、高质量的数据集合，有效支撑了模型在有限参数下的知识获取与泛化能力。

使用方法

为高效利用该数据集进行模型训练与研究，用户可通过Hugging Face的`datasets`库便捷加载。对于Cosmopedia v2与FineWeb-Edu-Dedup子集，直接使用`load_dataset`函数并指定对应配置名即可载入训练分割。Python-Edu子集的使用则需额外步骤，因其实际文件内容存储于Software Heritage的S3存储桶中，加载后需通过映射函数调用AWS S3 API下载并解压具体文件内容，随后过滤下载失败的样本。数据集支持多进程并行处理以提升效率，用户可根据计算资源调整`num_proc`参数。这种设计兼顾了数据访问的便利性与存储合规性，使得研究者能够灵活地将不同特性的子集应用于预训练、指令微调或数据质量分析等任务。

背景与挑战

背景概述

在大型语言模型蓬勃发展的时代，针对参数规模较小的模型进行高效预训练成为研究热点。HuggingFaceTB/smollm-corpus数据集应运而生，由HuggingFace团队于2024年构建并发布，旨在为小型语言模型提供高质量、多样化的教育性与合成数据语料。该数据集整合了Cosmopedia-v2合成文本、FineWeb-Edu-Dedup去重教育网页以及Python-Edu精选代码三大子集，核心研究聚焦于如何通过精心筛选与生成的数据，在有限算力下提升小模型的泛化能力与知识密度，对推动高效、可访问的轻量级语言模型发展具有显著影响力。

当前挑战

该数据集致力于应对小型语言模型训练中数据质量与多样性的核心挑战。在领域层面，需确保合成文本的语义连贯性与教育价值，同时从海量网络数据中精准识别并过滤出高教育质量的网页内容，避免噪声与低效信息。在构建过程中，挑战体现在大规模合成数据的生成与质量控制、跨源异构数据的去重与标准化整合，以及从开源代码库中依据教育性评分模型进行高效筛选与合规获取，这些环节均对数据工程的鲁棒性与可扩展性提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，高质量训练数据的稀缺性始终是制约小型语言模型性能提升的关键瓶颈。SmolLM-Corpus通过整合Cosmopedia v2合成数据集、FineWeb-Edu-Dedup教育网页数据及Python-Edu编程代码，为参数规模有限的语言模型提供了经过精细筛选的预训练语料。该数据集最经典的使用场景在于为资源受限环境下的模型训练提供支撑，研究者可基于其多源异构的数据结构，系统性地探索数据质量、多样性与模型泛化能力之间的内在关联，从而优化轻量级模型的架构设计与训练策略。

解决学术问题

该数据集有效应对了当前语言模型研究中的若干核心挑战。针对合成数据真实性不足的问题，Cosmopedia v2通过种子样本引导生成机制，提升了文本的逻辑连贯性与知识密度；面对网络文本质量参差不齐的困境，FineWeb-Edu-Dedup采用教育质量分类器实现了内容过滤；而Python-Edu子集则通过教育评分模型解决了代码数据教学价值评估的难题。这些设计共同为数据高效利用、模型能力边界拓展等学术议题提供了实证研究基础。

衍生相关工作

该数据集的发布催生了系列具有影响力的衍生研究。HuggingFace团队基于此训练了参数规模从1.1B到7B不等的SmolLM模型系列，验证了高质量数据对小型模型知识能力的提升效果；后续研究进一步探索了合成数据与真实数据的混合训练策略，以及教育评分模型在数据筛选中的泛化应用。这些工作共同推动了数据为中心的小型语言模型优化范式的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集