five

dolma3_300B_sample_shuffled

收藏
Hugging Face2026-05-28 更新2026-05-29 收录
下载链接:
https://huggingface.co/datasets/TheFinAI/dolma3_300B_sample_shuffled
下载链接
链接失效反馈
官方服务:
资源简介:
dolma3_300B_sample_shuffled 是一个经过全局行级洗牌的数据集,基于 TheFinAI/dolma3_300B_sample 创建。源数据集通过从 allenai/dolma3_mix-6T-1025-7B 进行每行伯努利采样(概率 p ≈ 0.0506)生成,包含约 3000 亿个 cl100k tokens,并保持了原始 Dolma3 的混合比例。然而,源数据在磁盘上按子源聚类记录,导致小规模训练洗牌缓冲区可能面临非均匀的源混合问题。本数据集通过实施真正的全局洗牌解决了这一问题:每个数据行被均匀随机分配到 200 个输出桶中,然后每个桶在内存中进行洗牌,从而在保持源混合比例不变的同时,确保数据分布的均匀性。数据集规模属于 1 亿到 10 亿级别,具体为约 3000 亿 tokens。数据模式与源相同,包括以下字段:source(来源)、date(日期)、text(文本)、token_count(token 计数)和 category(类别)。该数据集专为文本生成任务设计,适用于大规模语言模型训练,旨在提供更均匀的数据采样以提升模型性能。语言为英语,采用 odc-by 许可证,洗牌过程使用随机种子 42 以确保可复现性。

dolma3_300B_sample_shuffled is a globally row-shuffled dataset based on TheFinAI/dolma3_300B_sample. The source dataset was generated via per-line Bernoulli sampling (probability p ≈ 0.0506) from allenai/dolma3_mix-6T-1025-7B, containing approximately 300 billion cl100k tokens and preserving the original Dolma3 mixing ratios. However, the source data is stored on disk clustered by sub-source, which may cause non-uniform source mixing in small-scale training shuffle buffers. This dataset addresses the issue by implementing true global shuffling: each data row is uniformly randomly assigned to 200 output buckets, and each bucket is shuffled in memory, ensuring uniform data distribution while maintaining source mixing ratios. The dataset size falls within the 100 million to 1 billion range, specifically around 300 billion tokens. The data schema is identical to the source, including fields: source, date, text, token_count, and category. It is designed for text generation tasks, suitable for large-scale language model training, aiming to provide more uniform data sampling to improve model performance. The language is English, licensed under odc-by, with shuffling using random seed 42 to ensure reproducibility.
提供机构:
The Fin AI
创建时间:
2026-05-28
原始信息汇总

数据集概述:dolma3_300B_sample_shuffled

该数据集是 TheFinAI/dolma3_300B_sample 的全局行级混洗版本。

基本信息

  • 许可证: odc-by
  • 语言: 英语 (en)
  • 规模: 1亿 < n < 10亿 (100M< n <1B)
  • 任务: 文本生成 (text-generation)
  • 标签: dolma, shuffled

数据来源与抽样

源数据通过对 allenai/dolma3_mix-6T-1025-7B 进行逐行伯努利抽样(概率 p ≈ 0.0506)产生,保留了原始 Dolma3 混合比例,生成了约 300B 的 cl100k 词元。

数据集特点与动机

源数据的 Parquet 文件在磁盘上按子源聚类存储(每个约 10 万行的 Parquet 文件将同一输入分片的数据连续排列),导致较小的训练混洗缓冲区在每个小批量中会看到非均匀的源混合。该数据集对源数据进行了真正的全局混洗:每一行被均匀随机分配到 200 个输出桶中,然后每个桶在内存中被混洗。源混合比例保持不变。

数据模式

与源数据相同,包含字段:sourcedatetexttoken_countcategory

随机种子

种子值: 42

搜集汇总
数据集介绍
main_image_url
构建方式
大规模语言模型预训练语料的分布均匀性对模型性能至关重要。dolma3_300B_sample_shuffled数据集源自Allen AI发布的Dolma3混合语料库,通过对原始语料`allenai/dolma3_mix-6T-1025-7B`进行逐行伯努利采样(p≈0.0506),抽取约3000亿cl100k词元,并保留了原始Dolma3的源混合比例。然而,原始数据以子源为单位聚簇存储于Parquet文件中,导致局部批次内源分布不均。为解决此问题,研究团队实施了全局行级均匀洗牌:采用固定随机种子(42),将每行数据均等概率地分配到200个输出桶中,随后对每个桶进行内存级随机重排,从而打破原始磁盘上的序列化聚类,实现真正的全局随机化。
特点
该数据集的核心特色在于其全局洗牌机制所赋予的跨批次分布均匀性。相较于仅在局部缓冲区进行有限混洗的原始版本,本数据集确保了每一个小批次(minibatch)中来自不同子源(如书籍、网页、学术论文等)的样本比例严格遵循Dolma3的全局混合比率,避免了因数据聚类导致的训练偏差。数据模式与源数据集完全一致,包含`source`(来源)、`date`(日期)、`text`(文本)、`token_count`(词元计数)和`category`(类别)五个字段,便于直接替换下游数据管道。由于采用确定性随机种子,数据集的可复现性得到了保障。
使用方法
该数据集专为文本生成任务设计,可直接用于大规模语言模型的预训练或持续训练。使用者可将其无缝接入标准的数据加载流水线,建议搭配足够大的洗牌缓冲区以充分利用其全局均匀性优势。在加载时,直接读取HuggingFace数据集对象即可获得统一随机化的样本流,无需额外执行跨文件混洗操作。配合`token_count`字段,开发者可灵活实施按序列长度分桶的批处理策略以提升训练效率。值得注意的是,该数据集已内置全局洗牌,因此训练过程中无需再进行数据层级的大规模重排,仅需确保每个epoch内每个样本被恰好访问一次,即可达到最优的分布一致性。
背景与挑战
背景概述
大规模语言模型预训练数据的质量与分布均匀性对模型性能具有决定性影响。Dolma系列数据集由AI研究机构(如Allen AI)主导开发,旨在为文本生成任务提供海量、多源的英文语料。dolma3_300B_sample_shuffled数据集于2024年发布,通过对原始Dolma3语料进行约5%的Bernoulli采样,精选出约300B cl100k token的子集,严格保持了原始混合比例。该数据集的独特价值在于其执行了全局行级洗牌,解决了子源数据在存储时因簇状排列导致的非均匀分布问题,为语言模型训练提供了更加随机、无偏的样本顺序,显著提升了训练微批次中源分布的稳定性和模型泛化能力,在预训练数据工程领域具有重要示范意义。
当前挑战
该数据集面临的核心挑战包括:首先,所解决的领域问题是文本生成预训练中数据分布偏差问题——原始语料中不同子源(如网页、书籍、学术论文等)的数据在物理存储上连续聚集,导致小规模混洗缓冲区无法有效随机化样本顺序,使得每个微批次内源分布偏离全局比例,进而影响模型学习的均衡性和鲁棒性。其次,构建过程中需实现全局行级均匀洗牌,要求对300B量级的数据进行跨文件重排,并确保每个样本等概率地落入200个输出桶中,同时在内存中对各桶内数据做完全随机化,这对分布式计算效率、内存管理及随机数生成的一致性提出了极高要求,必须精确控制种子(42)以保证可复现性,避免引入额外偏置。
常用场景
经典使用场景
在自然语言处理领域,大规模语言模型的预训练依赖于海量、高质量且分布均匀的文本数据。dolma3_300B_sample_shuffled数据集作为Dolma3语料库的一个精心抽样与全局行级重排版本,其经典使用场景是为数十亿参数级别的语言模型提供稳健的训练语料。通过将原始约6T token的Dolma3混合语料按原始比例进行伯努利采样至300B token,并执行全局随机打乱,该数据集确保了每个小批次中数据来源的均匀混合,有效避免了因数据分片存储导致的源分布偏倚。研究者通常将其作为预训练阶段的输入,用于学习通用语言表示、语法结构、世界知识乃至跨领域的语义关联,为后续的指令微调或任务适配奠定坚实的基座。
实际应用
在实际应用层面,dolma3_300B_sample_shuffled数据集直接服务于工业界与学术界中大规模语言模型的研发与迭代。模型开发者可以利用这一全局洗牌后的精简语料,在有限的计算资源下快速验证模型架构、训练超参数或数据混合策略的有效性。例如,研究团队可基于该数据集测试不同分词器、学习率调度或注意力机制变体在300B token规模上的表现,而无需处理原始6T语料的庞大存储与I/O开销。同时,该数据集天然适配于分布式训练场景,由于其行级独立性,可被高效地分片加载至多GPU或TPU集群,确保各工作节点接收的数据分布一致,从而简化数据并行训练的协调复杂度。此外,其明确的数据来源与时间标注(`date`、`category`字段)使得下游任务如时间敏感型知识探测或领域自适应继续预训练成为可能。
衍生相关工作
该数据集的诞生催生了若干重要的衍生研究方向。基于其全局洗牌的特性,研究者进一步探索了不同混洗粒度(如文档级、句子级)对模型困惑度与下游任务表现的影响,形成了关于训练数据排序策略的系列论文。另一方面,dolma3_300B_sample_shuffled提供了与原始Dolma3混合语料保持相同源比例的标准采样,这促使了关于数据构成与模型能力之间因果关系的系统分析。例如,Allen AI团队通过对比在该数据集与原始未混洗版本上训练的模型在推理、常识问答及多语言基准上的差异,量化了数据混洗带来的性能增益。此外,该数据集也成为评估数据去重、质量过滤及课程学习等预处理流水线效果的对照组。诸如“混合比例对模型鲁棒性的影响”、“训练顺序与长程依赖捕获”等课题均以此数据为基石,推动了数据驱动型机器学习研究向更严谨、可复现的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作