dclm_100BT-shuffled

Name: dclm_100BT-shuffled
Creator: HuggingFaceFW
Published: 2026-02-15 16:52:11
License: 暂无描述

Hugging Face2026-02-15 更新2026-02-17 收录

下载链接：

https://huggingface.co/datasets/HuggingFaceFW/dclm_100BT-shuffled

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含89,269,902个训练样本，总大小为522GB。数据文件存储在'train'分割路径下（data/train-*）。每个样本包含7个字段：文本内容（text）、唯一标识符（id）、来源URL（url）、语言标签（language）、语言置信度分数（language_score）、fasttext模型分数（fasttext_score）以及来源数据集标识（dataset）。所有字段均明确标注了数据类型，其中文本和标识类字段为字符串类型，分数值为浮点数。数据集下载大小约为316GB。

This dataset comprises 89,269,902 training samples with a total size of 522 GB. All data files are stored under the 'train' split, following the path pattern data/train-*. Each sample includes 7 fields: text content (text), unique identifier (id), source URL (url), language label (language), language confidence score (language_score), fasttext model score (fasttext_score), and source dataset identifier (dataset). All fields are explicitly annotated with their data types, where text and identifier fields are of string type, while score values are floating-point numbers. The approximate download size of the dataset is 316 GB.

提供机构：

HuggingFaceFW

创建时间：

2026-02-15

搜集汇总

数据集介绍

构建方式

在预训练语料库构建领域，数据集的全局随机化处理对于模型性能具有重要影响。DCLM 100BT-shuffled数据集基于原始dclm_100BT语料库，通过系统化的全局重排流程构建而成。具体而言，开发团队将原始数据集完整加载至内存环境，采用确定性随机种子42进行全局文档级洗牌操作，最终生成包含100个分片的标准化数据格式。这种构建方法确保了文档顺序的完全随机化，同时保持了原始语料库的完整语义内容和规模特征。

特点

该数据集作为Smol-Data系列的重要组成部分，展现出若干显著特征。其核心特征在于实现了约100B词汇量级语料的全局随机化排列，这种文档级洗牌机制打破了原始数据中的序列依赖关系。数据集采用多维度元数据标注体系，包含文本内容、唯一标识符、来源URL、语言类型及质量评分等结构化字段。特别值得关注的是，数据集提供了fasttext评分和语言概率评估双重质量指标，为研究者进行数据筛选和权重分配提供了量化依据。这种设计既保持了大规模预训练语料的数据密度，又通过随机化处理增强了模型的泛化能力。

使用方法

在自然语言处理预训练任务中，该数据集可通过标准化流程高效调用。研究者只需通过HuggingFace数据集库加载接口，指定数据集名称和训练分割即可获取数据流。推荐采用流式读取模式处理数据，这种方式特别适合超大规模语料库的迭代训练场景。典型使用范例显示，用户可通过简单循环结构逐批获取文本样本，每个样本包含完整的元数据信息。数据集的标准化格式确保了与主流深度学习框架的无缝对接，支持分布式训练和混合精度计算等高级功能，为大规模语言模型预训练提供了可靠的数据基础设施。

背景与挑战

背景概述

在自然语言处理领域，大规模预训练语料库的构建是推动模型性能突破的关键基石。DCLM 100BT-shuffled数据集作为Smol-Data系列的一部分，由HuggingFaceFW团队于2026年发布，旨在为语言模型预训练提供经过精心筛选和全局随机重排的高质量文本资源。该数据集继承了原始dclm_100BT约1000亿令牌的规模，通过设定固定种子进行全局打乱，确保了文档顺序的随机性，从而优化了模型在训练过程中对数据分布的泛化能力。其构建体现了对数据质量与训练效率的平衡考量，为后续研究提供了标准化、可复现的预训练基础。

当前挑战

该数据集致力于应对大规模语言模型预训练中数据顺序偏差带来的挑战，即固定文档序列可能导致模型过度拟合局部结构，影响其泛化性能。通过全局随机打乱，旨在促进模型学习更稳健的语言表征。在构建过程中，主要挑战在于处理近千亿令牌级别的海量文本数据，需在内存与计算资源约束下实现高效、可复现的全局随机化操作，同时保持原始数据的完整性与质量。此外，确保打乱后数据分布的均衡性，避免引入新的偏差，亦是技术实现上的关键难点。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语料库的构建是推动模型性能提升的核心驱动力。DCLM 100BT-shuffled数据集作为一个经过全局随机重排的文本集合，其最经典的使用场景在于为大型语言模型的预训练阶段提供高质量、多样化的输入数据。通过确保文档顺序的随机性，该数据集有效避免了模型在训练过程中对原始数据顺序产生依赖，从而促进了模型对语言内在规律的无偏学习，为后续的微调和下游任务奠定了坚实的基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在优化预训练策略和评估数据质量对模型性能的影响。例如，研究者利用其打乱特性，对比研究了有序与无序数据对模型收敛速度和最终表现的影响，为动态数据调度算法的设计提供了实证依据。此外，作为Smol-Data集合的一部分，它常被用于基准测试，以评估不同模型架构在相同高质量数据上的学习效率，催生了一系列关于数据高效利用和模型缩放律的深入研究。

数据集最近研究