nanochat-dclm-baseline-150b-shuffle
收藏Hugging Face2026-01-25 更新2026-01-26 收录
下载链接:
https://huggingface.co/datasets/ddudek/nanochat-dclm-baseline-150b-shuffle
下载链接
链接失效反馈官方服务:
资源简介:
DCLM-Baseline 1.0数据集(150BT/4%样本)是一个重新打包的版本,旨在高效用于Andrej Karpathy的Nanochat项目。该数据集是原始DCLM-Baseline 1.0数据集的4%样本,包含117,968,896个文档和约666,856,099,899个字符,旨在作为FineWeb-Edu数据集的直接替代品。数据集创建分为两个阶段:首先从原始数据集中采样4%的文档,然后对采样的文档进行洗牌以随机化其顺序。数据集以Parquet格式存储,并针对Nanochat的使用进行了优化。
创建时间:
2026-01-23
原始信息汇总
数据集概述
基本信息
- 数据集名称: DCLM-Baseline 1.0 dataset (150BT/4% sample)
- 托管地址: https://huggingface.co/datasets/ddudek/nanochat-dclm-baseline-150b-shuffle
- 许可证: CC-BY-4.0
- 来源数据集: mlfoundations/dclm-baseline-1.0
- 主要语言: 英语 (en)
- 数据规模: 100B < n < 1T
数据内容与结构
- 特征: 仅包含一个名为
text的字符串字段。 - 数据量: 训练集包含 117,968,896 个文档。
- 字符总数: 约 666,856,099,899 个字符。
- 数据分片: 数据被组织成 2621 个分片文件。
- 文件格式: Parquet 格式文件,使用 ZSTD 压缩。
- 下载大小: 250,795,388 字节。
创建目的与用途
- 本数据集是 DCLM-Baseline 1.0 数据集的一个重新打包版本,旨在与 Andrej Karpathy 的 Nanochat 项目高效配合使用。
- 它设计为 FineWeb-Edu 数据集的即插即用替代品。
加载方式
- 数据集格式与 FineWeb 数据集完全相同。
- 要在 Nanochat 中使用,只需在
nanochat/dataset.py中替换数据集 URL 为:https://huggingface.co/datasets/ddudek/nanochat-dclm-baseline-150b-shuffle/resolve/main,并设置MAX_SHARD = 2621。
创建过程
1. 数据采样
- 从原始 DCLM-Baseline 1.0 数据集中随机采样了 4% 的文档。
- 采样目标规模略大于原始的 fineweb-edu 数据集。
- 采样过程使用了数据流式加载,并进行了原地随机采样。
- 初始输出为 Parquet 格式文件。
2. 数据洗牌与重新打包
- 对完整的 4% 样本数据集进行了洗牌操作,以随机化文档顺序。
- 使用种子 42 进行洗牌。
- 最终将数据重新打包为 Nanochat 优化的格式,并输出为 2621 个分片文件。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模语料库的构建是模型训练的基础。该数据集源自DCLM-Baseline 1.0,通过流式处理技术从原始数据中随机抽取约4%的文档,旨在生成一个与FineWeb-Edu规模相近的样本。抽取过程采用逐批处理方式,结合字符数阈值控制分片大小,并利用ZSTD压缩算法存储为Parquet格式。随后对样本进行全局随机重排,以消除原始数据中的顺序偏差,最终形成包含约1.18亿文档、近6670亿字符的标准化语料。
特点
作为专为Nanochat项目优化的语料库,该数据集展现出鲜明的工程特性。其采用分片存储结构,将数据划分为2621个独立单元,每个分片包含约2.5亿字符,这种设计显著提升了分布式数据加载的效率。数据格式与FineWeb完全兼容,实现了无缝替换的便捷性。文本内容经过严格清洗和标准化处理,确保语言质量的统一性。重排机制的应用使得文档顺序完全随机化,为模型训练提供了更均衡的数据分布。
使用方法
在具体应用场景中,该数据集可直接集成于Nanochat训练框架。使用者仅需修改配置文件中的数据集路径参数,将基准URL指向本数据集的存储位置即可完成部署。加载过程支持流式读取模式,能够有效管理内存消耗。数据分片机制允许并行加载,大幅缩短预处理时间。训练时可依据实际需求选择特定分片范围,实现灵活的资源调配。这种即插即用的设计理念,极大简化了大规模语言模型训练的数据准备流程。
背景与挑战
背景概述
nanochat-dclm-baseline-150b-shuffle数据集是机器学习领域为优化大规模语言模型预训练而构建的文本语料库。该数据集由社区研究者基于MLFoundations发布的DCLM-Baseline 1.0数据集重构而成,旨在为Andrej Karpathy的Nanochat项目提供高效、可直接替换FineWeb-Edu的数据源。其核心研究问题聚焦于如何从原始超大规模数据中采样并重组,以平衡数据规模与计算效率,为语言模型的轻量化训练提供高质量文本基础。该数据集的创建体现了开源社区在推动可复现、资源友好型人工智能研究方面的努力,对促进大规模语言模型的高效训练具有实践意义。
当前挑战
该数据集旨在解决大规模语言模型预训练中数据质量与计算资源之间的平衡问题,其挑战在于如何从原始DCLM-Baseline 1.0的数千亿文档中采样出具有代表性的子集,同时保持文本的多样性与教育价值。构建过程中的技术挑战尤为突出,包括在流式处理模式下实现高效随机采样,避免内存溢出;处理超大规模数据带来的存储与计算开销,例如需要数百GB的临时缓存空间;以及在数据重组阶段进行全局洗牌时,如何优化I/O性能与并行处理效率,确保最终数据格式与Nanochat框架兼容。
常用场景
经典使用场景
在大型语言模型预训练领域,nanochat-dclm-baseline-150b-shuffle数据集作为FineWeb-Edu的直接替代品,为Nanochat项目提供了高效、标准化的训练数据。该数据集通过4%的采样策略从原始DCLM-Baseline 1.0中提取,并经过精心设计的随机化处理,确保了数据分布的多样性和训练过程的稳定性。其经典使用场景聚焦于语言模型的基础预训练阶段,为研究者提供了高质量、大规模且格式统一的文本语料,显著简化了模型训练的数据准备流程。
解决学术问题
该数据集有效解决了大规模语言模型预训练中数据质量与训练效率之间的平衡问题。通过从原始DCLM-Baseline 1.0中提取经过筛选和随机化的子集,它既保留了原始数据的丰富语义信息,又避免了全量数据带来的计算负担。这为学术界研究语言模型的缩放规律、训练动态以及数据效率提供了标准化的实验基准,推动了模型预训练方法的可复现性与系统性比较。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在语言模型的高效训练与优化领域。Nanochat项目利用该数据集探索了模型架构简化、训练算法改进以及资源消耗降低等关键问题。此外,基于该数据集的实验催生了一系列关于数据采样策略、训练稳定性以及模型泛化能力的研究,为后续大规模语言模型的开源社区发展奠定了坚实的数据基础,并启发了更多针对训练数据工程化的创新方法。
以上内容由遇见数据集搜集并总结生成



