olmo-mix-1124
收藏魔搭社区2026-01-06 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/allenai/olmo-mix-1124
下载链接
链接失效反馈官方服务:
资源简介:
# OLMo 2 (November 2024) Pretraining set
Collection of data used to train OLMo-2-1124 models. The majority of this dataset comes from DCLM-Baseline with no additional filtering, but we provide the explicit breakdowns below.
| Name | Tokens | Bytes (uncompressed) | Documents | License |
|-----------------|--------|----------------------|-----------|-----------|
| DCLM-Baseline | 3.70T | 21.3TB | 2.95B | CC-BY-4.0 |
| Arxiv | 20.8B | 77.2GB | 3.95M | ODC-BY |
| pes2o | 58.6B | 412GB | 38M | ODC-BY |
| starcoder | 83.0B | 458GB | 78.7M | ODC-BY |
| Algebraic-stack | 11.8B | 44.0GB | 2.83M | ODC-BY |
| OpenWebMath | 12.2B | 47.23GB | 2.89M | ODC-BY |
| Wiki | 3.66B | 18.1GB | 6.17M | ODC-BY |
| Total | 3.90T | 22.4TB | 3.08B | ODC-BY |
Please refer to the OLMo2 Tech Report for further details.
## Licensing Information
This **collection** is released under the **Open Data Commons Attribution License (ODC-By) v1.0** [license](https://opendatacommons.org/licenses/by/1-0/). The use of this dataset is also subject to [CommonCrawl's Terms of Use](https://commoncrawl.org/terms-of-use).
## Citation
A technical manuscript is forthcoming!
# OLMo 2(2024年11月版)预训练数据集
本数据集为OLMo-2-1124系列模型的预训练数据集合。该数据集主体源自DCLM-Baseline且未进行额外过滤,下文将呈现各数据子集的详细拆分情况。
| 数据集名称 | Token(Token)数 | 未压缩字节数 | 文档数 | 许可证 |
|-----------------|--------|----------------------|-----------|-----------|
| DCLM-Baseline | 3.70T | 21.3TB | 2.95B | 知识共享署名4.0(CC-BY-4.0) |
| Arxiv | 20.8B | 77.2GB | 3.95M | 开放数据共同体署名许可协议(ODC-BY) |
| pes2o | 58.6B | 412GB | 38M | 开放数据共同体署名许可协议(ODC-BY) |
| starcoder | 83.0B | 458GB | 78.7M | 开放数据共同体署名许可协议(ODC-BY) |
| Algebraic-stack | 11.8B | 44.0GB | 2.83M | 开放数据共同体署名许可协议(ODC-BY) |
| OpenWebMath | 12.2B | 47.23GB | 2.89M | 开放数据共同体署名许可协议(ODC-BY) |
| Wiki | 3.66B | 18.1GB | 6.17M | 开放数据共同体署名许可协议(ODC-BY) |
| 总计 | 3.90T | 22.4TB | 3.08B | 开放数据共同体署名许可协议(ODC-BY) |
如需了解更多细节,请参考OLMo2技术报告。
## 许可信息
本**数据集集合**采用**开放数据共同体署名许可协议(ODC-By)v1.0**[授权协议](https://opendatacommons.org/licenses/by/1-0/)进行发布。使用本数据集还需遵守[CommonCrawl使用条款](https://commoncrawl.org/terms-of-use)。
## 引用信息
相关技术文稿即将发布!
提供机构:
maas
创建时间:
2025-05-27



