five

dolmino-mix-1124

收藏
魔搭社区2026-05-06 更新2025-06-07 收录
下载链接:
https://modelscope.cn/datasets/allenai/dolmino-mix-1124
下载链接
链接失效反馈
官方服务:
资源简介:
<img alt="Dolmino Logo." src="dolmino.png" width="400px"> # DOLMino dataset mix for OLMo2 stage 2 annealing training. Mixture of high-quality data used for the second stage of OLMo2 training. ## Source Sizes | Name | Category | Tokens | Bytes (uncompressed) | Documents | License | |-------------------------|--------------|--------|----------------------|-----------|--------------------------| | DCLM | HQ Web Pages | 752B | 4.56TB | 606M | CC-BY-4.0 | | Flan | HQ Web Pages | 17.0B | 98.2GB | 57.3M | ODC-BY | | Pes2o | STEM Papers | 58.6B | 413GB | 38.8M | ODC-BY | | Wiki | Encyclopedic | 3.7B | 16.2GB | 6.17M | ODC-BY | | StackExchange | CodeText | 1.26B | 7.72GB | 2.48M | CC-BY-SA-{2.5, 3.0, 4.0} | | TuluMath | Synth Math | 230M | 1.03GB | 220K | ODC-BY | | DolminoSynthMath | Synth Math | 28.7M | 163MB | 725K | ODC-BY | | TinyGSM-MIND | Synth Math | 6.48B | 25.52GB | 17M | ODC-BY | | MathCoder2 | Synth Math | 3.87B | 18.48GB | 2.83M | Apache 2.0 | | Metamath-owmfilter | Math | 84.2M | 741MB | 383K | CC-BY-SA-4.0 | | CodeSearchNet-owmfilter | Math | 1.78M | 29.8MB | 7.27K | ODC-BY | | GSM8K | Math | 2.74M | 25.3MB | 17.6K | MIT | | Total | | 843B | 5.14TB | 732M | ODC-BY | Where the breakdowns of each of TuluMath and DolminoSythMath are as follows: | Name | Category | Tokens | Bytes (uncompressed) | Documents | License | |------------------------|------------------|--------|----------------------|-----------|---------| | Personahub_math_v5 | TuluMath | 191M | 825MB | 150K | ODC-BY | | Personahub_math_interm | TuluMath | 19.7M | 82.9MB | 20k | ODC-BY | | Personahub_math_grade | TuluMath | 21.8M | 119.7MB | 50K | ODC-BY | | BasicMathMJ | DolminoSynthMath | 11.1M | 84.7MB | 664K | ODC-BY | | GSM8K-synth | DolminoSynthMath | 539K | 8.19MB | 7924 | ODC-BY | | GSM_MIND | DolminoSynthMath | 17.1M | 70.8MB | 52K | ODC-BY | Please refer to the OLMo2 Tech Report for further details. ## Mix Compositions The above tables simply refer to the total size and token counts of each of the individual sources. In practice we perform stage 2 training with either a 50B, 100B, or 300B token mixture taken from the above sources. In general, this is composed of roughly a 50% token yield from DCLM, and 50% token yield from the remaining sources. The table below summarizes this mixture: | Source | 50B | | 100B | | 300B | | |--------|-----|-----|------|-----|------|-----| | | Source % | Mix % | Source % | Mix % | Source % | Mix % | | DCLM Baseline | 3.23 | 47.2 | 6.85 | 50.2 | 20.78 | 51.9 | | FLAN | 50.0 | 16.6 | 100 | 16.7 | 200 | 11.3 | | pes2o | 5.15 | 5.85 | 16.7 | 9.52 | 100 | 19.4 | | Wiki | 100 | 7.11 | 100 | 3.57 | 400 | 4.86 | | StackExchange | 100 | 2.45 | 200 | 2.47 | 400 | 1.68 | | Stage 2 Math | 100 | 20.8 | 200 | 17.5 | 400 | 10.8 Where "Stage 2 Math" above refers to all sources with category "Math" or "Synth Math" ## Licensing Information This **collection** is released under the **Open Data Commons Attribution License (ODC-By) v1.0** [license](https://opendatacommons.org/licenses/by/1-0/). The use of this dataset is also subject to [CommonCrawl's Terms of Use](https://commoncrawl.org/terms-of-use). ## Citation A technical manuscript is forthcoming!

![DOLMino 标识。](dolmino.png) # 用于OLMo2第二阶段退火训练的DOLMino数据集混合集 本数据集为OLMo2第二阶段训练所用的高质量数据混合集。 ## 数据源规模 | 数据源名称 | 分类 | Token 数量 | 未压缩字节数 | 文档数 | 许可证 | |-------------------------|--------------------------|--------|----------------------|-----------|------------------------------------------| | DCLM | 高质量网页(HQ Web Pages) | 752B | 4.56TB | 606M | 知识共享署名4.0国际许可协议(CC-BY-4.0) | | Flan | 高质量网页(HQ Web Pages) | 17.0B | 98.2GB | 57.3M | 开放数据 Commons 署名许可(ODC-BY) | | Pes2o | STEM学术论文(STEM Papers) | 58.6B | 413GB | 38.8M | 开放数据 Commons 署名许可(ODC-BY) | | Wiki | 百科全书(Encyclopedic) | 3.7B | 16.2GB | 6.17M | 开放数据 Commons 署名许可(ODC-BY) | | StackExchange | 代码文本(CodeText) | 1.26B | 7.72GB | 2.48M | 知识共享署名-相同方式共享2.5/3.0/4.0国际许可协议(CC-BY-SA-{2.5, 3.0, 4.0}) | | TuluMath | 合成数学(Synth Math) | 230M | 1.03GB | 220K | 开放数据 Commons 署名许可(ODC-BY) | | DolminoSynthMath | 合成数学(Synth Math) | 28.7M | 163MB | 725K | 开放数据 Commons 署名许可(ODC-BY) | | TinyGSM-MIND | 合成数学(Synth Math) | 6.48B | 25.52GB | 17M | 开放数据 Commons 署名许可(ODC-BY) | | MathCoder2 | 合成数学(Synth Math) | 3.87B | 18.48GB | 2.83M | Apache许可证2.0版(Apache 2.0) | | Metamath-owmfilter | 数学(Math) | 84.2M | 741MB | 383K | 知识共享署名-相同方式共享4.0国际许可协议(CC-BY-SA-4.0) | | CodeSearchNet-owmfilter | 数学(Math) | 1.78M | 29.8MB | 7.27K | 开放数据 Commons 署名许可(ODC-BY) | | GSM8K | 数学(Math) | 2.74M | 25.3MB | 17.6K | MIT许可证(MIT) | | Total | | 843B | 5.14TB | 732M | 开放数据 Commons 署名许可(ODC-BY) | 以下为TuluMath与DolminoSynthMath的细分数据源详情: | 数据源名称 | 分类 | Token 数量 | 未压缩字节数 | 文档数 | 许可证 | |------------------------|--------------------------|--------|----------------------|-----------|------------------------------------------| | Personahub_math_v5 | TuluMath | 191M | 825MB | 150K | 开放数据 Commons 署名许可(ODC-BY) | | Personahub_math_interm | TuluMath | 19.7M | 82.9MB | 20k | 开放数据 Commons 署名许可(ODC-BY) | | Personahub_math_grade | TuluMath | 21.8M | 119.7MB | 50K | 开放数据 Commons 署名许可(ODC-BY) | | BasicMathMJ | DolminoSynthMath | 11.1M | 84.7MB | 664K | 开放数据 Commons 署名许可(ODC-BY) | | GSM8K-synth | DolminoSynthMath | 539K | 8.19MB | 7924 | 开放数据 Commons 署名许可(ODC-BY) | | GSM_MIND | DolminoSynthMath | 17.1M | 70.8MB | 52K | 开放数据 Commons 署名许可(ODC-BY) | 更多详情请参考OLMo2技术报告。 ## 数据集混合构成 上述表格仅列出各单一数据源的总规模与Token数量。实际训练中,我们将从上述数据源中抽取500亿、1000亿或3000亿Token的混合数据用于第二阶段训练。总体而言,该混合集约50%的Token来自DCLM,剩余50%的Token来自其他数据源。下表汇总了该混合构成: | 数据源 | 50B | | 100B | | 300B | | |--------|-----|-----|------|-----|------|-----| | | 数据源占比(%) | 混合集占比(%) | 数据源占比(%) | 混合集占比(%) | 数据源占比(%) | 混合集占比(%) | | DCLM Baseline | 3.23 | 47.2 | 6.85 | 50.2 | 20.78 | 51.9 | | FLAN | 50.0 | 16.6 | 100 | 16.7 | 200 | 11.3 | | pes2o | 5.15 | 5.85 | 16.7 | 9.52 | 100 | 19.4 | | Wiki | 100 | 7.11 | 100 | 3.57 | 400 | 4.86 | | StackExchange | 100 | 2.45 | 200 | 2.47 | 400 | 1.68 | | Stage 2 Math | 100 | 20.8 | 200 | 17.5 | 400 | 10.8 | 注:上表中的「第二阶段数学数据源(Stage 2 Math)」指所有分类为「数学(Math)」或「合成数学(Synth Math)」的数据源。 ## 许可信息 本**数据集集合**采用**开放数据 Commons 署名许可协议v1.0(ODC-By v1.0)**[许可协议](https://opendatacommons.org/licenses/by/1-0/)进行发布。使用本数据集还需遵守[CommonCrawl使用条款](https://commoncrawl.org/terms-of-use)。 ## 引用信息 技术手稿即将发布!
提供机构:
maas
创建时间:
2025-05-27
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作