dolma3_dolmino_mix-100B-1125

Name: dolma3_dolmino_mix-100B-1125
Creator: Allen Institute for AI
Published: 2025-11-20 22:18:30
License: 暂无描述

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/allenai/dolma3_dolmino_mix-100B-1125

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma 3 Dolmino数据集是一个高质量的数据池，用于Olmo 3 32B模型的第二阶段退火训练。该数据集包含了数学、代码、问答、思维和指导等合成数据，以及高清晰度的网页和PDF文件。

提供机构：

Allen Institute for AI

创建时间：

2025-11-19

原始信息汇总

Dolma 3 Dolmino 数据集概述

数据集基本信息

名称: Dolma 3 Dolmino dataset pool for Olmo 3 stage 2 annealing training
语言: 英语
许可证: Open Data Commons Attribution License v1.0 (ODC-By)
用途: 用于Olmo 3 32B模型第二阶段退火训练的高质量数据池

数据来源与分类

数学合成数据

TinyMATH Mind
TinyMATH PoT
CraneMath
MegaMatt
Dolmino Math

代码数据

StackEdu (FIM)
CraneCode (Python合成)

问答合成数据

Reddit To Flashcards
Wiki To RCQA
Nemotron Synth QA

思维合成数据

Math Meta-Reasoning
Code Meta-Reasoning
Program-Verifiable
OMR Rewrite FullThoughts
QWQ Reasoning Traces
General Reasoning Mix
Gemini Reasoning Traces
Llama Nemotron Reasoning Traces
OpenThoughts2 Reasoning Traces

指令合成数据

Tulu 3 SFT
Dolmino 1 Flan

文档数据

OLMOCR Science PDFs (高质量)
STEM-Heavy Crawl (网页)
Common Crawl (高质量网页)

训练成分

Olmo 3 32B模型第二阶段中期退火训练使用两种成分：

成分1: 100B tokens，混合组成：网页、代码、数学/问答/思维/指令/PDF
成分2: 100B tokens，混合组成：网页、代码、数学/问答/思维/指令/PDF

许可信息

数据集遵循ODC-By许可证，适用于研究和教育用途。详细信息请参考：https://allenai.org/responsible-use

引用说明

技术手稿即将发布

搜集汇总

数据集介绍

构建方式

在语言模型训练领域，数据质量对模型性能具有决定性影响。dolma3_dolmino_mix-100B-1125数据集通过精心筛选25个高质量数据源构建而成，涵盖数学合成、代码、问答合成、思维合成、指令合成及网页文档六大类别。该数据集采用双版本混合架构，每个版本均包含1000亿标记的语料，严格遵循网络文档、代码与专业领域内容的平衡配比原则，为Olmo 3 32B模型第二阶段退火训练提供了经过优化的数据基础。

特点

本数据集最显著的特征在于其多模态知识覆盖的完整性，数学合成数据包含TinyMATH与CraneMath等权威来源，代码数据集成StackEdu与CraneCode等专业资源，思维推理数据则汇聚了Gemini与Llama等先进模型的推理轨迹。特别值得关注的是，所有合成数据均经过严格的质量筛选流程，确保在保持数据多样性的同时维持较高的知识密度，这种精心设计的结构使其成为大规模语言模型进阶训练的优质素材。

使用方法

研究人员可依据ODC-By许可协议将本数据集用于非商业性研究，建议在Olmo 3系列模型的第二阶段退火训练中作为核心语料库使用。实际操作时需注意保持两个1000亿标记版本的独立训练流程，通过交替使用不同混合比例的语料来优化模型的知识吸收效率。为确保合规使用，使用者应详细查阅艾伦人工智能研究所发布的责任使用指南，并关注即将发布的技术文献以获取最新的应用规范。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的快速发展，构建高质量训练数据集成为提升模型性能的关键。dolma3_dolmino_mix-100B-1125由艾伦人工智能研究所于2024年发布，专为Olmo 3模型第二阶段退火训练设计。该数据集整合数学推导、代码生成、问答推理及指令遵循等多模态合成数据，通过精心筛选的互联网文本与学术文献构建出1125亿标记的混合语料库，为推进语言模型的逻辑推理与知识融合能力提供了重要基础。

当前挑战

该数据集致力于解决复杂推理与跨领域知识融合的核心难题，需在数学证明、程序代码与自由文本间建立语义关联。构建过程中面临多源数据质量对齐的挑战，包括合成数据的逻辑一致性校验、网络文本的信息密度筛选，以及不同领域数据分布的平衡优化。此外，在保持ODC-BY协议合规性的同时，需确保数万亿标记规模下数据源头的版权合规与伦理边界。

常用场景

经典使用场景

在大型语言模型训练领域，Dolma3 Dolmino混合数据集作为Olmo 3模型第二阶段退火训练的核心语料库，其价值体现在多模态数据的深度融合。该数据集通过整合数学推理、代码生成及思维链等合成数据，为模型提供了跨领域的知识迁移路径。研究人员通常将其用于构建具有复杂推理能力的预训练模型，特别是在处理需要多步逻辑推导的学术任务时，该数据集能有效提升模型对抽象概念的理解深度。

解决学术问题

该数据集显著缓解了传统语言模型在专业领域知识匮乏的困境。通过系统整合数学证明、程序验证与科学文献等高质量语料，它为解决模型符号推理能力不足、跨领域知识迁移困难等核心问题提供了数据基础。其精心设计的合成数据架构，为探索模型元认知能力与思维链推理机制开辟了新的研究路径，对推动认知计算领域的发展具有里程碑意义。

衍生相关工作

该数据集的发布催生了系列创新研究，特别是在合成数据与真实数据融合训练范式方面。以Olmo 3系列模型为代表的后续工作，通过借鉴其多阶段退火训练策略，在保持模型通用性的同时显著提升了专业领域性能。其构建的思维链数据集更成为推动复杂推理模型发展的重要基石，为后续研究提供了可复现的基准框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集