dolma3_dolmino_mix-100B-1125
收藏Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/allenai/dolma3_dolmino_mix-100B-1125
下载链接
链接失效反馈官方服务:
资源简介:
Dolma 3 Dolmino数据集是一个高质量的数据池,用于Olmo 3 32B模型的第二阶段退火训练。该数据集包含了数学、代码、问答、思维和指导等合成数据,以及高清晰度的网页和PDF文件。
提供机构:
Allen Institute for AI
创建时间:
2025-11-19
原始信息汇总
Dolma 3 Dolmino 数据集概述
数据集基本信息
- 名称: Dolma 3 Dolmino dataset pool for Olmo 3 stage 2 annealing training
- 语言: 英语
- 许可证: Open Data Commons Attribution License v1.0 (ODC-By)
- 用途: 用于Olmo 3 32B模型第二阶段退火训练的高质量数据池
数据来源与分类
数学合成数据
- TinyMATH Mind
- TinyMATH PoT
- CraneMath
- MegaMatt
- Dolmino Math
代码数据
- StackEdu (FIM)
- CraneCode (Python合成)
问答合成数据
- Reddit To Flashcards
- Wiki To RCQA
- Nemotron Synth QA
思维合成数据
- Math Meta-Reasoning
- Code Meta-Reasoning
- Program-Verifiable
- OMR Rewrite FullThoughts
- QWQ Reasoning Traces
- General Reasoning Mix
- Gemini Reasoning Traces
- Llama Nemotron Reasoning Traces
- OpenThoughts2 Reasoning Traces
指令合成数据
- Tulu 3 SFT
- Dolmino 1 Flan
文档数据
- OLMOCR Science PDFs (高质量)
- STEM-Heavy Crawl (网页)
- Common Crawl (高质量网页)
训练成分
Olmo 3 32B模型第二阶段中期退火训练使用两种成分:
- 成分1: 100B tokens,混合组成:网页、代码、数学/问答/思维/指令/PDF
- 成分2: 100B tokens,混合组成:网页、代码、数学/问答/思维/指令/PDF
许可信息
数据集遵循ODC-By许可证,适用于研究和教育用途。详细信息请参考:https://allenai.org/responsible-use
引用说明
技术手稿即将发布
搜集汇总
数据集介绍

构建方式
在语言模型训练领域,数据质量对模型性能具有决定性影响。dolma3_dolmino_mix-100B-1125数据集通过精心筛选25个高质量数据源构建而成,涵盖数学合成、代码、问答合成、思维合成、指令合成及网页文档六大类别。该数据集采用双版本混合架构,每个版本均包含1000亿标记的语料,严格遵循网络文档、代码与专业领域内容的平衡配比原则,为Olmo 3 32B模型第二阶段退火训练提供了经过优化的数据基础。
特点
本数据集最显著的特征在于其多模态知识覆盖的完整性,数学合成数据包含TinyMATH与CraneMath等权威来源,代码数据集成StackEdu与CraneCode等专业资源,思维推理数据则汇聚了Gemini与Llama等先进模型的推理轨迹。特别值得关注的是,所有合成数据均经过严格的质量筛选流程,确保在保持数据多样性的同时维持较高的知识密度,这种精心设计的结构使其成为大规模语言模型进阶训练的优质素材。
使用方法
研究人员可依据ODC-By许可协议将本数据集用于非商业性研究,建议在Olmo 3系列模型的第二阶段退火训练中作为核心语料库使用。实际操作时需注意保持两个1000亿标记版本的独立训练流程,通过交替使用不同混合比例的语料来优化模型的知识吸收效率。为确保合规使用,使用者应详细查阅艾伦人工智能研究所发布的责任使用指南,并关注即将发布的技术文献以获取最新的应用规范。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的快速发展,构建高质量训练数据集成为提升模型性能的关键。dolma3_dolmino_mix-100B-1125由艾伦人工智能研究所于2024年发布,专为Olmo 3模型第二阶段退火训练设计。该数据集整合数学推导、代码生成、问答推理及指令遵循等多模态合成数据,通过精心筛选的互联网文本与学术文献构建出1125亿标记的混合语料库,为推进语言模型的逻辑推理与知识融合能力提供了重要基础。
当前挑战
该数据集致力于解决复杂推理与跨领域知识融合的核心难题,需在数学证明、程序代码与自由文本间建立语义关联。构建过程中面临多源数据质量对齐的挑战,包括合成数据的逻辑一致性校验、网络文本的信息密度筛选,以及不同领域数据分布的平衡优化。此外,在保持ODC-BY协议合规性的同时,需确保数万亿标记规模下数据源头的版权合规与伦理边界。
常用场景
经典使用场景
在大型语言模型训练领域,Dolma3 Dolmino混合数据集作为Olmo 3模型第二阶段退火训练的核心语料库,其价值体现在多模态数据的深度融合。该数据集通过整合数学推理、代码生成及思维链等合成数据,为模型提供了跨领域的知识迁移路径。研究人员通常将其用于构建具有复杂推理能力的预训练模型,特别是在处理需要多步逻辑推导的学术任务时,该数据集能有效提升模型对抽象概念的理解深度。
解决学术问题
该数据集显著缓解了传统语言模型在专业领域知识匮乏的困境。通过系统整合数学证明、程序验证与科学文献等高质量语料,它为解决模型符号推理能力不足、跨领域知识迁移困难等核心问题提供了数据基础。其精心设计的合成数据架构,为探索模型元认知能力与思维链推理机制开辟了新的研究路径,对推动认知计算领域的发展具有里程碑意义。
衍生相关工作
该数据集的发布催生了系列创新研究,特别是在合成数据与真实数据融合训练范式方面。以Olmo 3系列模型为代表的后续工作,通过借鉴其多阶段退火训练策略,在保持模型通用性的同时显著提升了专业领域性能。其构建的思维链数据集更成为推动复杂推理模型发展的重要基石,为后续研究提供了可复现的基准框架。
以上内容由遇见数据集搜集并总结生成



