dolmino-mix-1124
收藏魔搭社区2026-05-06 更新2025-06-07 收录
下载链接:
https://modelscope.cn/datasets/allenai/dolmino-mix-1124
下载链接
链接失效反馈官方服务:
资源简介:
<img alt="Dolmino Logo." src="dolmino.png" width="400px">
# DOLMino dataset mix for OLMo2 stage 2 annealing training.
Mixture of high-quality data used for the second stage of OLMo2 training.
## Source Sizes
| Name | Category | Tokens | Bytes (uncompressed) | Documents | License |
|-------------------------|--------------|--------|----------------------|-----------|--------------------------|
| DCLM | HQ Web Pages | 752B | 4.56TB | 606M | CC-BY-4.0 |
| Flan | HQ Web Pages | 17.0B | 98.2GB | 57.3M | ODC-BY |
| Pes2o | STEM Papers | 58.6B | 413GB | 38.8M | ODC-BY |
| Wiki | Encyclopedic | 3.7B | 16.2GB | 6.17M | ODC-BY |
| StackExchange | CodeText | 1.26B | 7.72GB | 2.48M | CC-BY-SA-{2.5, 3.0, 4.0} |
| TuluMath | Synth Math | 230M | 1.03GB | 220K | ODC-BY |
| DolminoSynthMath | Synth Math | 28.7M | 163MB | 725K | ODC-BY |
| TinyGSM-MIND | Synth Math | 6.48B | 25.52GB | 17M | ODC-BY |
| MathCoder2 | Synth Math | 3.87B | 18.48GB | 2.83M | Apache 2.0 |
| Metamath-owmfilter | Math | 84.2M | 741MB | 383K | CC-BY-SA-4.0 |
| CodeSearchNet-owmfilter | Math | 1.78M | 29.8MB | 7.27K | ODC-BY |
| GSM8K | Math | 2.74M | 25.3MB | 17.6K | MIT |
| Total | | 843B | 5.14TB | 732M | ODC-BY |
Where the breakdowns of each of TuluMath and DolminoSythMath are as follows:
| Name | Category | Tokens | Bytes (uncompressed) | Documents | License |
|------------------------|------------------|--------|----------------------|-----------|---------|
| Personahub_math_v5 | TuluMath | 191M | 825MB | 150K | ODC-BY |
| Personahub_math_interm | TuluMath | 19.7M | 82.9MB | 20k | ODC-BY |
| Personahub_math_grade | TuluMath | 21.8M | 119.7MB | 50K | ODC-BY |
| BasicMathMJ | DolminoSynthMath | 11.1M | 84.7MB | 664K | ODC-BY |
| GSM8K-synth | DolminoSynthMath | 539K | 8.19MB | 7924 | ODC-BY |
| GSM_MIND | DolminoSynthMath | 17.1M | 70.8MB | 52K | ODC-BY |
Please refer to the OLMo2 Tech Report for further details.
## Mix Compositions
The above tables simply refer to the total size and token counts of each of the individual sources. In practice we perform stage 2 training with either a 50B, 100B, or 300B token mixture taken from the above sources. In general, this is composed of roughly a 50% token yield from DCLM, and 50% token yield from the remaining sources. The table below summarizes this mixture:
| Source | 50B | | 100B | | 300B | |
|--------|-----|-----|------|-----|------|-----|
| | Source % | Mix % | Source % | Mix % | Source % | Mix % |
| DCLM Baseline | 3.23 | 47.2 | 6.85 | 50.2 | 20.78 | 51.9 |
| FLAN | 50.0 | 16.6 | 100 | 16.7 | 200 | 11.3 |
| pes2o | 5.15 | 5.85 | 16.7 | 9.52 | 100 | 19.4 |
| Wiki | 100 | 7.11 | 100 | 3.57 | 400 | 4.86 |
| StackExchange | 100 | 2.45 | 200 | 2.47 | 400 | 1.68 |
| Stage 2 Math | 100 | 20.8 | 200 | 17.5 | 400 | 10.8
Where "Stage 2 Math" above refers to all sources with category "Math" or "Synth Math"
## Licensing Information
This **collection** is released under the **Open Data Commons Attribution License (ODC-By) v1.0** [license](https://opendatacommons.org/licenses/by/1-0/). The use of this dataset is also subject to [CommonCrawl's Terms of Use](https://commoncrawl.org/terms-of-use).
## Citation
A technical manuscript is forthcoming!

# 用于OLMo2第二阶段退火训练的DOLMino数据集混合集
本数据集为OLMo2第二阶段训练所用的高质量数据混合集。
## 数据源规模
| 数据源名称 | 分类 | Token 数量 | 未压缩字节数 | 文档数 | 许可证 |
|-------------------------|--------------------------|--------|----------------------|-----------|------------------------------------------|
| DCLM | 高质量网页(HQ Web Pages) | 752B | 4.56TB | 606M | 知识共享署名4.0国际许可协议(CC-BY-4.0) |
| Flan | 高质量网页(HQ Web Pages) | 17.0B | 98.2GB | 57.3M | 开放数据 Commons 署名许可(ODC-BY) |
| Pes2o | STEM学术论文(STEM Papers) | 58.6B | 413GB | 38.8M | 开放数据 Commons 署名许可(ODC-BY) |
| Wiki | 百科全书(Encyclopedic) | 3.7B | 16.2GB | 6.17M | 开放数据 Commons 署名许可(ODC-BY) |
| StackExchange | 代码文本(CodeText) | 1.26B | 7.72GB | 2.48M | 知识共享署名-相同方式共享2.5/3.0/4.0国际许可协议(CC-BY-SA-{2.5, 3.0, 4.0}) |
| TuluMath | 合成数学(Synth Math) | 230M | 1.03GB | 220K | 开放数据 Commons 署名许可(ODC-BY) |
| DolminoSynthMath | 合成数学(Synth Math) | 28.7M | 163MB | 725K | 开放数据 Commons 署名许可(ODC-BY) |
| TinyGSM-MIND | 合成数学(Synth Math) | 6.48B | 25.52GB | 17M | 开放数据 Commons 署名许可(ODC-BY) |
| MathCoder2 | 合成数学(Synth Math) | 3.87B | 18.48GB | 2.83M | Apache许可证2.0版(Apache 2.0) |
| Metamath-owmfilter | 数学(Math) | 84.2M | 741MB | 383K | 知识共享署名-相同方式共享4.0国际许可协议(CC-BY-SA-4.0) |
| CodeSearchNet-owmfilter | 数学(Math) | 1.78M | 29.8MB | 7.27K | 开放数据 Commons 署名许可(ODC-BY) |
| GSM8K | 数学(Math) | 2.74M | 25.3MB | 17.6K | MIT许可证(MIT) |
| Total | | 843B | 5.14TB | 732M | 开放数据 Commons 署名许可(ODC-BY) |
以下为TuluMath与DolminoSynthMath的细分数据源详情:
| 数据源名称 | 分类 | Token 数量 | 未压缩字节数 | 文档数 | 许可证 |
|------------------------|--------------------------|--------|----------------------|-----------|------------------------------------------|
| Personahub_math_v5 | TuluMath | 191M | 825MB | 150K | 开放数据 Commons 署名许可(ODC-BY) |
| Personahub_math_interm | TuluMath | 19.7M | 82.9MB | 20k | 开放数据 Commons 署名许可(ODC-BY) |
| Personahub_math_grade | TuluMath | 21.8M | 119.7MB | 50K | 开放数据 Commons 署名许可(ODC-BY) |
| BasicMathMJ | DolminoSynthMath | 11.1M | 84.7MB | 664K | 开放数据 Commons 署名许可(ODC-BY) |
| GSM8K-synth | DolminoSynthMath | 539K | 8.19MB | 7924 | 开放数据 Commons 署名许可(ODC-BY) |
| GSM_MIND | DolminoSynthMath | 17.1M | 70.8MB | 52K | 开放数据 Commons 署名许可(ODC-BY) |
更多详情请参考OLMo2技术报告。
## 数据集混合构成
上述表格仅列出各单一数据源的总规模与Token数量。实际训练中,我们将从上述数据源中抽取500亿、1000亿或3000亿Token的混合数据用于第二阶段训练。总体而言,该混合集约50%的Token来自DCLM,剩余50%的Token来自其他数据源。下表汇总了该混合构成:
| 数据源 | 50B | | 100B | | 300B | |
|--------|-----|-----|------|-----|------|-----|
| | 数据源占比(%) | 混合集占比(%) | 数据源占比(%) | 混合集占比(%) | 数据源占比(%) | 混合集占比(%) |
| DCLM Baseline | 3.23 | 47.2 | 6.85 | 50.2 | 20.78 | 51.9 |
| FLAN | 50.0 | 16.6 | 100 | 16.7 | 200 | 11.3 |
| pes2o | 5.15 | 5.85 | 16.7 | 9.52 | 100 | 19.4 |
| Wiki | 100 | 7.11 | 100 | 3.57 | 400 | 4.86 |
| StackExchange | 100 | 2.45 | 200 | 2.47 | 400 | 1.68 |
| Stage 2 Math | 100 | 20.8 | 200 | 17.5 | 400 | 10.8 |
注:上表中的「第二阶段数学数据源(Stage 2 Math)」指所有分类为「数学(Math)」或「合成数学(Synth Math)」的数据源。
## 许可信息
本**数据集集合**采用**开放数据 Commons 署名许可协议v1.0(ODC-By v1.0)**[许可协议](https://opendatacommons.org/licenses/by/1-0/)进行发布。使用本数据集还需遵守[CommonCrawl使用条款](https://commoncrawl.org/terms-of-use)。
## 引用信息
技术手稿即将发布!
提供机构:
maas
创建时间:
2025-05-27



