pretrain-mix-150b
收藏Hugging Face2025-08-07 更新2025-08-08 收录
下载链接:
https://huggingface.co/datasets/meryyllebr543/pretrain-mix-150b
下载链接
链接失效反馈官方服务:
资源简介:
pretrain-mix-150b是一个高质量、1500亿token的预训练数据集,专为大型语言模型研究和开发而设计。该数据集是经过精心策划的,包含高质量的教育网络文本、全面的数学文档和多样化的代码集合,旨在培养预训练模型在推理和多领域方面的强大能力。数据集由大约1.3亿个文档组成,总共约1500亿个token。数据集的构成经过编程验证,确保了平衡的知识、逻辑推理和编程语法。
创建时间:
2025-08-07
原始信息汇总
pretrain-mix-150b 数据集概述
基本信息
- 许可证: Apache 2.0 License
- 语言: 英语 (en)
- 数据集规模: 约1500亿个token,包含约1.3亿份文档
数据集组成
- Web (FineWeb-Edu): 87,570,000份文档 (67.3%) - 高质量教育网页内容
- Code (Stack-Edu): 23,560,000份文档 (18.1%) - 来自GitHub的精选源代码
- Math (FineMath): 18,900,000份文档 (14.5%) - 数学推理与问题解决内容
- 总计: 130,030,000份文档 (100.0%)
数据集特点
- 平衡性: 包含通用网页文本、代码和数学语料
- 可重现性: 创建过程完全脚本化,组成透明
- 高效性: 以Parquet格式提供,适合大规模训练
使用方式
- 数据结构: 包含2,601个Parquet文件,存储在
data/目录下 - 加载方式: 可使用🤗
datasets库加载,推荐使用streaming=True模式 - 数据模式:
text(string): 文档主要内容source(string): 文档来源 (web,math, 或code)
数据来源
- FineWeb-Edu: 来自
HuggingFaceFW/fineweb-edu,使用sample-100BT配置 - FineMath: 来自
HuggingFaceTB/finemath,使用finemath-3plus配置 - Stack-Edu: 来自
meryyllebr543/stack-edu-huggingface,包含Python、Rust、Markdown、C++和C#语言
作者信息
- 作者: Francisco Antonio
- GitHub: MeryylleA
- LinkedIn: Francisco Antonio
许可信息
- 数据集使用Apache 2.0 License发布
- 用户需遵守原始数据源的许可证和使用条款
搜集汇总
数据集介绍
构建方式
在大型语言模型预训练领域,数据质量与多样性对模型性能具有决定性影响。pretrain-mix-150b数据集通过精心整合三大权威开源语料构建而成:从FineWeb-Edu选取高质量教育类网页文本,占比67.3%;采用Stack-Edu的精选GitHub源代码,占比18.1%;融合FineMath的数学推理与解题内容,占比14.5%。整个构建过程采用脚本化流程实现文档级混合,最终形成包含1.3亿文档、1500亿token的平衡语料库。
特点
该数据集最显著的特征在于其多领域平衡性设计,突破了传统预训练数据过度偏向通用网页文本的局限。其内容结构经过严格验证,不仅涵盖教育类通用知识,更强化了逻辑推理与编程语法两大关键能力域。数据集采用Parquet格式存储,具备2601个分片的高效读取特性,且每个样本均标注来源领域标识,为分析模型在不同领域的表现提供了结构化支持。
使用方法
研究人员可通过HuggingFace datasets库的流式加载功能高效使用该数据集,建议配置streaming=True参数以避免全量下载。数据加载后呈现为包含text和source字段的迭代器,其中text字段存储原始文本内容,source字段标识领域来源(web/math/code)。这种设计既支持全领域混合训练,也允许根据特定领域进行选择性训练,特别适用于从头预训练新型架构的基础模型。
背景与挑战
背景概述
在人工智能领域大规模语言模型快速发展的背景下,pretrain-mix-150b数据集由独立研究者Francisco Antonio于近期构建完成,旨在为新型模型架构提供高质量、多领域的预训练语料。该数据集整合了来自FineWeb-Edu的高质量教育类网络文本、FineMath的数学推理内容以及Stack-Edu的精选源代码,总计包含约1.3亿份文档与1500亿个词汇单元。其设计理念强调通过均衡的数据配比提升模型在通用知识、逻辑推理及编程语法等方面的综合能力,为语言模型的基础训练与研究提供了重要资源。
当前挑战
该数据集致力于应对多领域语言模型预训练中的核心挑战,包括如何有效融合异构文本数据以增强模型的推理与泛化能力,以及如何平衡不同领域数据的比例以避免模型偏向单一类型的内容。在构建过程中,面临的主要挑战涉及大规模数据源的筛选与清洗,确保教育文本、数学内容与代码语料的质量与一致性;同时,数据整合需解决格式统一与来源标注的技术难题,并维持原始数据许可协议的法律合规性,这些因素共同增加了数据集构建的复杂性与精细度。
常用场景
经典使用场景
在大型语言模型预训练领域,pretrain-mix-150b数据集通过精心配比的多元语料架构,为模型训练提供了理想的数据基础。其经典应用场景集中于从头训练新型基础模型,特别是混合专家架构(Mixture-of-Experts)的模型开发,能够有效利用高质量教育文本、数学推理资料和编程代码的协同作用,显著提升模型在多领域的认知与推理能力。
衍生相关工作
基于该数据集衍生的经典研究包括新型神经网络架构的探索实验,特别是在混合专家模型领域的创新应用。其透明可复现的数据构建方法论为后续研究提供了范式参考,催生了多个针对专业领域优化的预训练模型版本,并在代码理解与生成、数学定理证明以及教育内容自动化处理等细分方向产生了重要影响。
数据集最近研究
最新研究方向
在大规模语言模型预训练领域,pretrain-mix-150b数据集凭借其精心设计的多源混合架构,正推动着模型跨领域推理能力的前沿探索。该数据集融合高质量教育文本、数学推理与编程代码,为混合专家模型(Mixture-of-Experts)提供了理想的数据基础,显著提升了模型在逻辑推理和代码生成等复杂任务中的表现。其透明可复现的构建流程与高效的数据格式,已成为学术界与工业界训练新型基础模型的重要资源,对多模态与通用人工智能的发展具有深远影响。
以上内容由遇见数据集搜集并总结生成



