dolma3_longmino_mix-50B-1025

Name: dolma3_longmino_mix-50B-1025
Creator: Allen Institute for AI
Published: 2025-11-20 20:08:50
License: 暂无描述

Hugging Face2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/allenai/dolma3_longmino_mix-50B-1025

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma 3 Longmino Mix (50B)是用于Olmo 3 7B模型第三阶段训练的数据混合集。

提供机构：

Allen Institute for AI

创建时间：

2025-11-19

原始信息汇总

Dolma 3 Longmino Mix (50B) 数据集概述

数据集基本信息

许可证: Open Data Commons Attribution License v1.0 (ODC-By)
语言: 英语
用途: 研究型数据集，用于Olmo 3 7B模型第三阶段训练

数据规模

总令牌数: 500亿
总文档数: 8000万

数据来源构成

合成PDF数据

LC-s2pdf-REX 32k-64k: 60.8亿令牌 (12.2%)，21.7万文档
LC-s2pdf-CWE 32k-64k: 19.4亿令牌 (3.88%)，7.13万文档

PDF数据

LC-s2pdf 32k-64k: 48.1亿令牌 (9.63%)，17.7万文档
LC-s2pdf 8k-32k (8-16k): 22.7亿令牌 (4.55%)，23.5万文档
LC-s2pdf 8k-32k (16-32k): 18.5亿令牌 (3.70%)，11万文档

混合数据

Midtraining Data: 330亿令牌 (66.1%)，7920万文档

使用说明

适用于研究和教育用途
详细信息请参考：https://allenai.org/responsible-use

引用信息

技术手稿即将发布

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模语料库的构建对模型训练至关重要。Dolma 3 Longmino Mix数据集通过多源异构数据融合策略，整合了科学文献PDF解析数据与中期训练混合数据。其中LC-s2pdf系列子集采用层级式文档长度划分机制，涵盖32k-64k与8k-32k等不同粒度区间的文本单元，最终形成包含500亿标记、8000万文档的完整语料库。

使用方法

作为Olmo 3 7B模型第三阶段训练的核心语料，研究者可依据ODC-By许可协议在学术场景中调用该数据集。建议采用分片加载技术处理数据文件，通过配置参数灵活调整不同来源子集的比例权重。对于长文本建模任务，可重点利用32k-64k区间的文档子集，而8k-32k区间的数据则适用于标准长度文本的预训练任务。

背景与挑战

背景概述

作为自然语言处理领域的重要基础设施，大规模预训练数据集持续推动着语言模型能力的边界拓展。Dolma 3 Longmino Mix-50B由艾伦人工智能研究所于2024年构建，专门为第三代Olmo 7B模型第三阶段训练提供数据支撑。该数据集通过融合学术文献合成PDF与真实PDF文档，构建出包含500亿标记、8000万文档的混合语料库，其核心价值在于通过多源异构数据优化模型的长文本理解能力，为推进语言模型的上下文窗口扩展与复杂语义推理研究提供了关键数据基础。

当前挑战

构建过程中面临多模态文档标准化处理的显著挑战，包括PDF文档结构解析中的版面元素分离、数学公式保留以及跨页内容连贯性维护等技术难点。在数据质量管控层面，需要解决合成数据与真实数据分布对齐、长文档语义完整性校验等关键问题。该数据集致力于攻克长文本建模领域的核心难题，特别是如何有效建模超过32K标记的扩展上下文窗口，以及如何在超长文档中保持语义连贯性与知识一致性，这些挑战直接关系到语言模型处理学术文献和复杂文档的实际效能。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练数据集已成为推动模型性能突破的核心资源。Dolma 3 Longmino Mix-50B通过融合科学文献PDF合成数据与中段训练混合数据，为Olmo 3 7B模型的第三阶段训练提供关键支撑。该数据集特别注重长文本序列的处理能力，其包含的32k-64k长度区间的文档能有效提升模型对复杂语义结构的理解，成为大语言模型进阶训练阶段的典型范例。

解决学术问题

该数据集主要应对当前大语言模型在长文本理解与生成方面的技术瓶颈。通过整合不同长度区间的科学文献数据，系统解决了模型在处理长序列依赖关系时的信息衰减问题。其丰富的文档类型分布为研究跨领域知识迁移提供了实验基础，同时为探索模型规模与数据质量之间的平衡关系提供了重要实证依据，对推进语言模型的认知边界具有显著意义。

实际应用

在实际应用层面，该数据集支撑的训练模型可广泛应用于智能学术助手、专业文献摘要生成等场景。其包含的大规模科学文献数据使模型具备领域专业知识处理能力，特别适用于科研机构的文献分析平台。基于ODC-By许可证的开放特性，该数据集也为教育机构开展自然语言处理教学与研究提供了合规可靠的数据资源。

数据集最近研究