five

dolma3_dolmino_mix-100B-1125

收藏
Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/allenai/dolma3_dolmino_mix-100B-1125
下载链接
链接失效反馈
官方服务:
资源简介:
Dolma 3 Dolmino数据集是一个高质量的数据池,用于Olmo 3 32B模型的第二阶段退火训练。该数据集包含了数学、代码、问答、思维和指导等合成数据,以及高清晰度的网页和PDF文件。
提供机构:
Allen Institute for AI
创建时间:
2025-11-19
原始信息汇总

Dolma 3 Dolmino 数据集概述

数据集基本信息

  • 名称: Dolma 3 Dolmino dataset pool for Olmo 3 stage 2 annealing training
  • 语言: 英语
  • 许可证: Open Data Commons Attribution License v1.0 (ODC-By)
  • 用途: 用于Olmo 3 32B模型第二阶段退火训练的高质量数据池

数据来源与分类

数学合成数据

  • TinyMATH Mind
  • TinyMATH PoT
  • CraneMath
  • MegaMatt
  • Dolmino Math

代码数据

  • StackEdu (FIM)
  • CraneCode (Python合成)

问答合成数据

  • Reddit To Flashcards
  • Wiki To RCQA
  • Nemotron Synth QA

思维合成数据

  • Math Meta-Reasoning
  • Code Meta-Reasoning
  • Program-Verifiable
  • OMR Rewrite FullThoughts
  • QWQ Reasoning Traces
  • General Reasoning Mix
  • Gemini Reasoning Traces
  • Llama Nemotron Reasoning Traces
  • OpenThoughts2 Reasoning Traces

指令合成数据

  • Tulu 3 SFT
  • Dolmino 1 Flan

文档数据

  • OLMOCR Science PDFs (高质量)
  • STEM-Heavy Crawl (网页)
  • Common Crawl (高质量网页)

训练成分

Olmo 3 32B模型第二阶段中期退火训练使用两种成分:

  • 成分1: 100B tokens,混合组成:网页、代码、数学/问答/思维/指令/PDF
  • 成分2: 100B tokens,混合组成:网页、代码、数学/问答/思维/指令/PDF

许可信息

数据集遵循ODC-By许可证,适用于研究和教育用途。详细信息请参考:https://allenai.org/responsible-use

引用说明

技术手稿即将发布

搜集汇总
数据集介绍
main_image_url
构建方式
在语言模型训练领域,数据质量对模型性能具有决定性影响。dolma3_dolmino_mix-100B-1125数据集通过精心筛选25个高质量数据源构建而成,涵盖数学合成、代码、问答合成、思维合成、指令合成及网页文档六大类别。该数据集采用双版本混合架构,每个版本均包含1000亿标记的语料,严格遵循网络文档、代码与专业领域内容的平衡配比原则,为Olmo 3 32B模型第二阶段退火训练提供了经过优化的数据基础。
特点
本数据集最显著的特征在于其多模态知识覆盖的完整性,数学合成数据包含TinyMATH与CraneMath等权威来源,代码数据集成StackEdu与CraneCode等专业资源,思维推理数据则汇聚了Gemini与Llama等先进模型的推理轨迹。特别值得关注的是,所有合成数据均经过严格的质量筛选流程,确保在保持数据多样性的同时维持较高的知识密度,这种精心设计的结构使其成为大规模语言模型进阶训练的优质素材。
使用方法
研究人员可依据ODC-By许可协议将本数据集用于非商业性研究,建议在Olmo 3系列模型的第二阶段退火训练中作为核心语料库使用。实际操作时需注意保持两个1000亿标记版本的独立训练流程,通过交替使用不同混合比例的语料来优化模型的知识吸收效率。为确保合规使用,使用者应详细查阅艾伦人工智能研究所发布的责任使用指南,并关注即将发布的技术文献以获取最新的应用规范。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的快速发展,构建高质量训练数据集成为提升模型性能的关键。dolma3_dolmino_mix-100B-1125由艾伦人工智能研究所于2024年发布,专为Olmo 3模型第二阶段退火训练设计。该数据集整合数学推导、代码生成、问答推理及指令遵循等多模态合成数据,通过精心筛选的互联网文本与学术文献构建出1125亿标记的混合语料库,为推进语言模型的逻辑推理与知识融合能力提供了重要基础。
当前挑战
该数据集致力于解决复杂推理与跨领域知识融合的核心难题,需在数学证明、程序代码与自由文本间建立语义关联。构建过程中面临多源数据质量对齐的挑战,包括合成数据的逻辑一致性校验、网络文本的信息密度筛选,以及不同领域数据分布的平衡优化。此外,在保持ODC-BY协议合规性的同时,需确保数万亿标记规模下数据源头的版权合规与伦理边界。
常用场景
经典使用场景
在大型语言模型训练领域,Dolma3 Dolmino混合数据集作为Olmo 3模型第二阶段退火训练的核心语料库,其价值体现在多模态数据的深度融合。该数据集通过整合数学推理、代码生成及思维链等合成数据,为模型提供了跨领域的知识迁移路径。研究人员通常将其用于构建具有复杂推理能力的预训练模型,特别是在处理需要多步逻辑推导的学术任务时,该数据集能有效提升模型对抽象概念的理解深度。
解决学术问题
该数据集显著缓解了传统语言模型在专业领域知识匮乏的困境。通过系统整合数学证明、程序验证与科学文献等高质量语料,它为解决模型符号推理能力不足、跨领域知识迁移困难等核心问题提供了数据基础。其精心设计的合成数据架构,为探索模型元认知能力与思维链推理机制开辟了新的研究路径,对推动认知计算领域的发展具有里程碑意义。
衍生相关工作
该数据集的发布催生了系列创新研究,特别是在合成数据与真实数据融合训练范式方面。以Olmo 3系列模型为代表的后续工作,通过借鉴其多阶段退火训练策略,在保持模型通用性的同时显著提升了专业领域性能。其构建的思维链数据集更成为推动复杂推理模型发展的重要基石,为后续研究提供了可复现的基准框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作