pretrain-mix-150b

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/meryyllebr543/pretrain-mix-150b

下载链接

链接失效反馈

官方服务：

资源简介：

pretrain-mix-150b是一个高质量、1500亿token的预训练数据集，专为大型语言模型研究和开发而设计。该数据集是经过精心策划的，包含高质量的教育网络文本、全面的数学文档和多样化的代码集合，旨在培养预训练模型在推理和多领域方面的强大能力。数据集由大约1.3亿个文档组成，总共约1500亿个token。数据集的构成经过编程验证，确保了平衡的知识、逻辑推理和编程语法。

创建时间：

2025-08-07

原始信息汇总

pretrain-mix-150b 数据集概述

基本信息

许可证: Apache 2.0 License
语言: 英语 (en)
数据集规模: 约1500亿个token，包含约1.3亿份文档

数据集组成

Web (FineWeb-Edu): 87,570,000份文档 (67.3%) - 高质量教育网页内容
Code (Stack-Edu): 23,560,000份文档 (18.1%) - 来自GitHub的精选源代码
Math (FineMath): 18,900,000份文档 (14.5%) - 数学推理与问题解决内容
总计: 130,030,000份文档 (100.0%)

数据集特点

平衡性: 包含通用网页文本、代码和数学语料
可重现性: 创建过程完全脚本化，组成透明
高效性: 以Parquet格式提供，适合大规模训练

使用方式

数据结构: 包含2,601个Parquet文件，存储在data/目录下
加载方式: 可使用🤗 datasets库加载，推荐使用streaming=True模式
数据模式:
- text (string): 文档主要内容
- source (string): 文档来源 (web, math, 或 code)

数据来源

FineWeb-Edu: 来自HuggingFaceFW/fineweb-edu，使用sample-100BT配置
FineMath: 来自HuggingFaceTB/finemath，使用finemath-3plus配置
Stack-Edu: 来自meryyllebr543/stack-edu-huggingface，包含Python、Rust、Markdown、C++和C#语言

作者信息

作者: Francisco Antonio
GitHub: MeryylleA
LinkedIn: Francisco Antonio

许可信息

数据集使用Apache 2.0 License发布
用户需遵守原始数据源的许可证和使用条款

搜集汇总

数据集介绍

构建方式

在大型语言模型预训练领域，数据质量与多样性对模型性能具有决定性影响。pretrain-mix-150b数据集通过精心整合三大权威开源语料构建而成：从FineWeb-Edu选取高质量教育类网页文本，占比67.3%；采用Stack-Edu的精选GitHub源代码，占比18.1%；融合FineMath的数学推理与解题内容，占比14.5%。整个构建过程采用脚本化流程实现文档级混合，最终形成包含1.3亿文档、1500亿token的平衡语料库。

特点

该数据集最显著的特征在于其多领域平衡性设计，突破了传统预训练数据过度偏向通用网页文本的局限。其内容结构经过严格验证，不仅涵盖教育类通用知识，更强化了逻辑推理与编程语法两大关键能力域。数据集采用Parquet格式存储，具备2601个分片的高效读取特性，且每个样本均标注来源领域标识，为分析模型在不同领域的表现提供了结构化支持。

使用方法

研究人员可通过HuggingFace datasets库的流式加载功能高效使用该数据集，建议配置streaming=True参数以避免全量下载。数据加载后呈现为包含text和source字段的迭代器，其中text字段存储原始文本内容，source字段标识领域来源（web/math/code）。这种设计既支持全领域混合训练，也允许根据特定领域进行选择性训练，特别适用于从头预训练新型架构的基础模型。

背景与挑战

背景概述

在人工智能领域大规模语言模型快速发展的背景下，pretrain-mix-150b数据集由独立研究者Francisco Antonio于近期构建完成，旨在为新型模型架构提供高质量、多领域的预训练语料。该数据集整合了来自FineWeb-Edu的高质量教育类网络文本、FineMath的数学推理内容以及Stack-Edu的精选源代码，总计包含约1.3亿份文档与1500亿个词汇单元。其设计理念强调通过均衡的数据配比提升模型在通用知识、逻辑推理及编程语法等方面的综合能力，为语言模型的基础训练与研究提供了重要资源。

当前挑战

该数据集致力于应对多领域语言模型预训练中的核心挑战，包括如何有效融合异构文本数据以增强模型的推理与泛化能力，以及如何平衡不同领域数据的比例以避免模型偏向单一类型的内容。在构建过程中，面临的主要挑战涉及大规模数据源的筛选与清洗，确保教育文本、数学内容与代码语料的质量与一致性；同时，数据整合需解决格式统一与来源标注的技术难题，并维持原始数据许可协议的法律合规性，这些因素共同增加了数据集构建的复杂性与精细度。

常用场景

经典使用场景

在大型语言模型预训练领域，pretrain-mix-150b数据集通过精心配比的多元语料架构，为模型训练提供了理想的数据基础。其经典应用场景集中于从头训练新型基础模型，特别是混合专家架构（Mixture-of-Experts）的模型开发，能够有效利用高质量教育文本、数学推理资料和编程代码的协同作用，显著提升模型在多领域的认知与推理能力。

衍生相关工作

基于该数据集衍生的经典研究包括新型神经网络架构的探索实验，特别是在混合专家模型领域的创新应用。其透明可复现的数据构建方法论为后续研究提供了范式参考，催生了多个针对专业领域优化的预训练模型版本，并在代码理解与生成、数学定理证明以及教育内容自动化处理等细分方向产生了重要影响。

数据集最近研究