idlemachines-50B
收藏Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://huggingface.co/datasets/s-maddrellmander/idlemachines-50B
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于大型语言模型预训练的混合数据集,包含教育类网页内容(70%)、代码数据(20%)和科学论文(10%),总计10亿token。数据使用GPT-2分词器处理,采用2048token的块级洗牌,存储为二进制分片格式。
创建时间:
2025-12-19
原始信息汇总
数据集概述
数据集名称
Pre-training Data (GPT-2 Tokenized, Mixed)
数据集描述
混合预训练语料库,经过分块级洗牌,用于大语言模型训练。
数据构成
| 来源 | 比例 | 令牌数 | 描述 |
|---|---|---|---|
| FineWeb-EDU | 70% | 0.7B | 教育类网络内容 |
| The Stack v2 | 20% | 0.2B | 代码(Python、JS等) |
| arXiv | 10% | 0.1B | 科学论文 |
总计:1.0B 令牌
数据格式
- 二进制分片(每个约 100M 令牌)
- GPT-2 分词器(词汇量 50,257)
- 分块洗牌(每块 2048 个令牌)
- 兼容 llm.c / nanoGPT 格式
使用方式
python from huggingface_hub import hf_hub_download
下载特定分片
hf_hub_download(repo_id="s-maddrellmander/idlemachines-50B", filename="train_00000.bin", repo_type="dataset", local_dir="./data")
或使用下载脚本
python download_pretrain_data.py --repo s-maddrellmander/idlemachines-50B
训练方式
bash python train_gpt_fp8.py --train-data data/train_.bin --val-data data/val_.bin
详细信息
- 随机种子:42
- 训练分片数量:9
- 验证分片数量:1
搜集汇总
数据集介绍

构建方式
在构建大规模语言模型预训练数据集的实践中,idlemachines-50B数据集采用了一种精心设计的混合策略。该数据集整合了来自FineWeb-EDU的教育类网页内容、The Stack v2的代码资源以及arXiv的科学论文,三者分别以70%、20%和10%的比例融合,总计包含10亿个经过GPT-2分词器处理的标记。数据预处理过程中,所有文本被分割为2048个标记的块,并在块级别进行随机重排,最终以二进制分片形式存储,每个分片约含1亿标记,确保了数据分布的均匀性与训练效率。
特点
该数据集的显著特征在于其多元化的数据来源与优化的结构设计。它融合了教育文本、编程代码和学术论文,覆盖了自然语言理解与代码生成的双重需求,为模型提供了广泛的知识基础。数据以固定长度的标记块组织,并经过全局重排,有效减少了序列依赖性,提升了训练稳定性。同时,数据集采用与llm.c及nanoGPT框架兼容的二进制格式,便于直接集成到主流训练流程中,支持高效的分布式加载与处理。
使用方法
使用idlemachines-50B数据集时,研究人员可通过Hugging Face Hub直接下载特定的二进制分片文件,或运行提供的下载脚本批量获取数据。在模型训练阶段,用户只需将数据路径配置为匹配所有训练分片的通配符模式,即可无缝接入如train_gpt_fp8.py等训练脚本。数据集已预先划分为9个训练分片和1个验证分片,支持即插即用的训练与评估,为大规模语言模型的预训练提供了便捷且标准化的数据支持。
背景与挑战
背景概述
在大型语言模型(LLM)预训练领域,高质量、多样化的语料库是模型性能提升的关键基础。idlemachines-50B数据集由研究人员或机构s-maddrellmander于近期创建,旨在为LLM训练提供一个经过精心混合与处理的预训练语料。该数据集的核心研究问题聚焦于如何有效整合教育内容、编程代码与学术论文等多源文本,以增强模型在知识理解、代码生成及科学推理等多任务上的泛化能力。通过采用GPT-2分词器并实施分块级混洗策略,该数据集不仅优化了训练效率,还为开源社区提供了标准化、易用的数据资源,推动了轻量级LLM训练框架如llm.c和nanoGPT的发展与应用。
当前挑战
idlemachines-50B数据集所解决的领域问题在于为大型语言模型预训练提供高效、均衡的多源语料,其挑战首先体现在领域融合的复杂性:如何合理分配教育网页、代码库与科学论文的比例,以平衡模型在通用知识、编程技能和学术语言之间的学习权重,避免领域偏差或知识覆盖不足。构建过程中的挑战则涉及数据处理的技术难点,包括对原始文本进行高质量清洗、统一分词与分块混洗,确保数据格式与主流训练框架兼容,同时维持语料多样性与连贯性,这些步骤对计算资源与算法设计提出了较高要求。
常用场景
经典使用场景
在大型语言模型预训练领域,idlemachines-50B数据集以其精心配比的混合语料成为关键资源。该数据集整合了教育网页内容、编程代码与科学论文,通过分块级混洗优化了数据多样性,常用于训练中等规模的语言模型,如基于GPT-2架构的模型。研究人员利用其标准化的二进制分片格式,能够高效进行分布式训练,加速模型在通用语言理解与生成任务上的收敛过程。
解决学术问题
该数据集有效应对了预训练数据质量不均与领域覆盖有限的学术挑战。通过融合教育、代码与科学文献等多源数据,它缓解了传统语料库中领域偏差问题,为研究跨领域语言建模提供了均衡基准。其分块混洗机制降低了序列依赖性,促进了模型对长程上下文的学习,推动了在数据高效利用与模型泛化能力方面的探索。
衍生相关工作
围绕该数据集衍生的经典工作包括高效训练算法的优化研究,如低精度浮点训练技术的应用。许多研究借鉴其混合数据策略,探索多领域自适应预训练方法,提升了模型在代码补全与科学问答等下游任务的性能。此外,其标准化格式促进了开源社区工具链的整合,成为比较不同模型架构在统一数据基准上表现的常见参照。
以上内容由遇见数据集搜集并总结生成



