dclm-baseline-1.0-llama3-tokenized

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/Muesli1/dclm-baseline-1.0-llama3-tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

DCLM-Baseline Pretokenized 数据集是 DCLM-Baseline 的预分词和全局洗牌版本，专为大规模语言模型预训练设计，尤其适用于 LLaMA 3.1 风格的训练流程。数据集包含约 4T 令牌和 2,949,254,346 份文档，使用 LLaMA 3.1 分词器进行独立编码，无填充或截断。通过固定随机种子对所有文档进行全局洗牌，确保原始数据的分片顺序不保留任何局部性。文档通过最佳适应裁剪算法打包成长度为 8,192 的序列，实现 100% 令牌利用率，但约 35% 的令牌因序列边界裁剪被丢弃。数据集仅适用于自回归语言模型预训练，不适用于微调、指令调优或任何监督任务。其底层数据源自 Common Crawl 网络爬取数据，遵循 CC-BY-4.0 许可，并仅用于研究目的。

The DCLM-Baseline Pretokenized dataset is a pretokenized and globally shuffled version of DCLM-Baseline, specifically designed for large-scale language model pretraining, particularly suitable for LLaMA 3.1-style training pipelines. The dataset contains approximately 4T tokens and 2,949,254,346 documents, independently encoded using the LLaMA 3.1 tokenizer without padding or truncation. A fixed random seed is used to globally shuffle all documents, ensuring that the original datas shard order retains no locality. Documents are packed into sequences of length 8,192 using a best-fit cropping algorithm, achieving 100% token utilization, though approximately 35% of tokens are discarded due to sequence boundary cropping. The dataset is exclusively suitable for autoregressive language model pretraining and not for fine-tuning, instruction tuning, or any supervised tasks. The underlying data is sourced from Common Crawl web crawls, follows the CC-BY-4.0 license, and is intended for research purposes only.

创建时间：

2026-04-20

原始信息汇总

数据集概述：DCLM-Baseline Pretokenized (LLaMA 3.1, 8192 context)

基本信息

数据集名称：DCLM-Baseline Pretokenized (LLaMA 3.1, 8192 context)
许可证：CC-BY-4.0
语言：英语
标签：预标记化、预训练、LLaMA 3、文本

数据来源

基于 DCLM-Baseline 数据集（原始地址：https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0），该数据集源自 Common Crawl 网络爬取数据。
原始 DCLM-Baseline 是一个包含约 4T tokens / 3B 文档 的预训练数据集。
相关论文：https://arxiv.org/abs/2406.11794

标记化

分词器：使用 LLaMA 3.1 分词器（meta-llama/Llama-3.1-8B）
库：HuggingFace transformers 中的 AutoTokenizer
处理方式：每个文档独立编码，无填充、无截断
数据规模：
- 总文档数：2,949,254,346
- 估计总 tokens：约 4T

全局混洗

对所有 2,949,254,346 个文档进行了全局文档级混洗
使用固定随机种子（seed=42）确保完全可复现

序列打包

文档被打包为长度为 8,192 的序列
采用 Best-Fit Cropping 算法（实现代码来源：https://github.com/karpathy/nanochat/blob/0aaca56805eb13f6e6e1fff789a08086902f12ab/nanochat/dataloader.py#L74-L161）
关键特性：
- 每个序列以 BOS token 开头
- 100% token 利用率，无填充 token
- 当没有文档能填入剩余空间时，裁剪最短的缓冲文档以恰好填满
- 由于序列边界裁剪，约 35% 的 token 被丢弃
上下文长度 8,192 遵循 LLaMA 3 论文（https://arxiv.org/abs/2407.21783）中的预训练安排

预期用途

仅用于 自回归语言模型预训练
不适用于微调、指令微调或任何监督任务
继承原始 DCLM-Baseline 数据集的 研究用途限制

非适用范围

不适用于生产环境下的模型训练
在代码和数学等特定领域任务上表现可能有限
仅限研究目的使用

引用

如需使用该数据集，请引用原始 DCLM 论文（见 README 中的引文格式）。

搜集汇总

数据集介绍

构建方式

DCLM-Baseline-1.0-LLaMA3-Tokenized数据集是基于原始DCLM-Baseline语料库（源自Common Crawl网络爬取数据）的预分词与全局重排版本。构建流程分为三个核心步骤：首先，采用LLaMA 3.1分词器（meta-llama/Llama-3.1-8B）对近29.5亿篇独立文档进行编码，确保每篇文档独立处理而不添加填充或截断；其次，利用固定随机种子（seed=42）对所有文档执行全局级洗牌，彻底打乱原始分片顺序以保证数据分布的去局部化；最后，通过最佳拟合裁剪算法将文档打包为8192长度的序列，每序列以BOS标记起始，实现了100%的令牌利用率，同时因序列边界裁剪而丢弃约35%的令牌。

使用方法

本数据集专为自回归语言模型预训练设计，可作为LLaMA 3.1类训练管线的直接替代语料。使用时需通过HuggingFace Transformers库加载预分词令牌序列，并确保模型上下文窗口匹配8192长度。由于令牌已进行全局洗牌与打包，用户无需额外进行数据重排或填充处理，即可直接送入训练循环。建议研究人员参考原始DCLM-Baseline的基准评估结果，并遵循CC-BY-4.0许可协议，在科研范围内使用。引用时需注明DataComp-LM论文以尊重数据来源的学术贡献。

背景与挑战

背景概述

大规模语言模型（LLM）的预训练语料库是决定模型性能的关键因素之一，然而现有数据集常因数据分布偏差、冗余和噪声而影响训练效果。在此背景下，DCLM-Baseline-1.0-Llama3-Tokenized数据集于2024年由MLCommons研究团队创建，作为DataComp-LM项目的一部分，旨在探索下一代语言模型训练数据集的构建范式。该数据集基于DCLM-Baseline原始语料，经过LLaMA 3.1分词器处理、全局文档级随机打乱和最佳适配裁剪序列打包，形成包含约4T token和2.95B文档的高质量预训练语料。其核心研究问题聚焦于如何通过系统化的数据筛选和预处理提升语言模型在基准测试中的表现，特别是在开放域语言理解任务上。该数据集对LLM预训练领域产生了显著影响，为Llama 3.1等模型提供了标准化的训练数据基线，推动了数据质量与模型性能关系的深入研究。

当前挑战

该数据集面临的核心挑战源于大语言模型预训练的数据工程复杂性。首先，领域层面，它需解决从海量网页爬取数据（Common Crawl）中提取高质量、低冗余文本的难题，尽管DCLM-Baseline采用了严格的过滤和去重策略，但分布外样本、代码与数学领域的稀疏性仍可能限制模型在特定任务上的泛化能力。其次，构建过程中的挑战包括：在分词阶段，使用固定词汇表的分词器可能对罕见或新颖词汇产生次优表示；全局随机打乱虽消除了分片顺序偏差，但文档间语义连贯性的丧失可能影响模型对长程依赖的学习；序列打包环节中，最佳适配裁剪算法导致约35%的token被丢弃，造成了数据利用率与序列完整性之间的权衡。此外，该数据集专为4T token规模的预训练设计，其与后续扩展训练的上下文窗口适配以及数据规模的可扩展性仍是待解决的技术难题。

常用场景

经典使用场景

DCLM-Baseline预分词数据集专为大规模自回归语言模型预训练而设计，基于LLaMA 3.1分词器将原始文档编码为8192上下文长度的序列。该数据集采用全局文档级洗牌和最佳适应裁剪打包策略，实现了100%的令牌利用率，去除了填充令牌。它直接作为LLaMA 3.1风格训练管线的即用型预训练语料，适用于研究目的的通用文本理解与生成训练。

解决学术问题

该数据集解决了大规模语言模型预训练中数据质量与高效处理的核心问题。它通过精心筛选的Common Crawl数据源（DCLM-Baseline），结合预分词和全局洗牌，消除了原始分片顺序带来的偏差。这一系列处理显著提升了语言模型在下游基准上的性能，为研究数据规模、数据质量和训练策略之间的关系提供了标准化、可复现的基础平台。

实际应用

在实际应用中，该数据集主要服务于自然语言处理领域的研究机构，用于构建和评估新一代语言模型。它简化了预训练数据管线的复杂度，研究者可直接将其输入训练框架，专注于模型架构与算法的改进。此外，预分词格式减少了计算资源消耗，使得中小型实验室也能开展大模型预训练实验，推动了学术界的开放协作。

数据集最近研究