five

olmo-mix-1124

收藏
魔搭社区2026-01-06 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/allenai/olmo-mix-1124
下载链接
链接失效反馈
官方服务:
资源简介:
# OLMo 2 (November 2024) Pretraining set Collection of data used to train OLMo-2-1124 models. The majority of this dataset comes from DCLM-Baseline with no additional filtering, but we provide the explicit breakdowns below. | Name | Tokens | Bytes (uncompressed) | Documents | License | |-----------------|--------|----------------------|-----------|-----------| | DCLM-Baseline | 3.70T | 21.3TB | 2.95B | CC-BY-4.0 | | Arxiv | 20.8B | 77.2GB | 3.95M | ODC-BY | | pes2o | 58.6B | 412GB | 38M | ODC-BY | | starcoder | 83.0B | 458GB | 78.7M | ODC-BY | | Algebraic-stack | 11.8B | 44.0GB | 2.83M | ODC-BY | | OpenWebMath | 12.2B | 47.23GB | 2.89M | ODC-BY | | Wiki | 3.66B | 18.1GB | 6.17M | ODC-BY | | Total | 3.90T | 22.4TB | 3.08B | ODC-BY | Please refer to the OLMo2 Tech Report for further details. ## Licensing Information This **collection** is released under the **Open Data Commons Attribution License (ODC-By) v1.0** [license](https://opendatacommons.org/licenses/by/1-0/). The use of this dataset is also subject to [CommonCrawl's Terms of Use](https://commoncrawl.org/terms-of-use). ## Citation A technical manuscript is forthcoming!

# OLMo 2(2024年11月版)预训练数据集 本数据集为OLMo-2-1124系列模型的预训练数据集合。该数据集主体源自DCLM-Baseline且未进行额外过滤,下文将呈现各数据子集的详细拆分情况。 | 数据集名称 | Token(Token)数 | 未压缩字节数 | 文档数 | 许可证 | |-----------------|--------|----------------------|-----------|-----------| | DCLM-Baseline | 3.70T | 21.3TB | 2.95B | 知识共享署名4.0(CC-BY-4.0) | | Arxiv | 20.8B | 77.2GB | 3.95M | 开放数据共同体署名许可协议(ODC-BY) | | pes2o | 58.6B | 412GB | 38M | 开放数据共同体署名许可协议(ODC-BY) | | starcoder | 83.0B | 458GB | 78.7M | 开放数据共同体署名许可协议(ODC-BY) | | Algebraic-stack | 11.8B | 44.0GB | 2.83M | 开放数据共同体署名许可协议(ODC-BY) | | OpenWebMath | 12.2B | 47.23GB | 2.89M | 开放数据共同体署名许可协议(ODC-BY) | | Wiki | 3.66B | 18.1GB | 6.17M | 开放数据共同体署名许可协议(ODC-BY) | | 总计 | 3.90T | 22.4TB | 3.08B | 开放数据共同体署名许可协议(ODC-BY) | 如需了解更多细节,请参考OLMo2技术报告。 ## 许可信息 本**数据集集合**采用**开放数据共同体署名许可协议(ODC-By)v1.0**[授权协议](https://opendatacommons.org/licenses/by/1-0/)进行发布。使用本数据集还需遵守[CommonCrawl使用条款](https://commoncrawl.org/terms-of-use)。 ## 引用信息 相关技术文稿即将发布!
提供机构:
maas
创建时间:
2025-05-27
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作