five

dolma3_longmino_mix-100B-1125

收藏
Hugging Face2025-11-20 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/allenai/dolma3_longmino_mix-100B-1125
下载链接
链接失效反馈
官方服务:
资源简介:
Dolma 3 Longmino Mix (100B)数据集是用于Olmo 3 32B模型第三阶段训练的数据混合。它包含了合成PDF文件和普通PDF文件,以及混合训练数据。该数据集适用于研究和教育用途。
提供机构:
Allen Institute for AI
创建时间:
2025-11-19
原始信息汇总

Dolma 3 Longmino Mix (100B) 数据集概述

数据集简介

  • Dolma 3 Longmino Mix (100B) 是用于 Olmo 3 32B 模型第三阶段训练的数据混合物。

数据来源

来源 类型
LC-s2pdf-REX 32k-64k 合成PDF
LC-s2pdf-CWE 32k-64k 合成PDF
LC-s2pdf 32k-64k PDF
LC-s2pdf 8k-32k (8-16k) PDF
LC-s2pdf 8k-32k (16-32k) PDF
中期训练数据 混合物

许可信息

  • 采用 Open Data Commons Attribution License v1.0 (ODC-By) 许可
  • 适用于研究和教育用途
  • 详细信息请参考:https://allenai.org/responsible-use

引用说明

  • 技术手稿即将发布
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,大规模预训练数据集的构建对模型性能具有决定性影响。Dolma 3 Longmino Mix数据集通过多源异构数据融合策略,整合了LC-s2pdf系列PDF文本资源与中期训练混合数据。其中LC-s2pdf组件采用分级处理机制,分别涵盖32k-64k字符长度的合成PDF与原生PDF,以及8k-32k区间的分段PDF文档,这种分层设计有效保障了长文本序列的训练完整性。
特点
作为支撑Olmo 3 32B模型第三阶段训练的核心语料,该数据集最显著的特征在于其严格的长度筛选机制。所有文本样本均经过字符长度标准化处理,形成8k-64k的连续频谱分布。特别值得关注的是其包含的合成PDF与原生PDF双重文本形态,这种结构既保留了真实文档的语义复杂性,又通过合成数据增强了特定领域的覆盖广度,为模型的长文本理解能力提供了多维度的训练基础。
使用方法
遵循开放数据共享协议,研究者可通过规范的授权流程获取该数据集。在具体应用层面,建议将其部署于大规模语言模型的中后期训练阶段,尤其适用于提升模型对长序列文本的编码与生成能力。使用过程中应当严格遵循责任使用指南,将应用场景限定于学术研究与教育领域。值得注意的是,该数据集需要配合相应的文本解析工具,以正确处理PDF源文档的语义结构转换。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的快速发展,高质量训练数据的构建成为关键研究课题。Dolma 3 Longmino Mix由艾伦人工智能研究所主导开发,作为Olmo 3 32B模型第三阶段训练的核心语料,其设计目标在于通过融合多源异构数据提升模型的长文本理解与生成能力。该数据集特别注重科学文献类文本的覆盖,通过整合LC-s2pdf系列PDF解析数据与中期训练混合数据,为推进语言模型在学术文本处理领域的应用提供了重要支撑。
当前挑战
构建过程面临多维度挑战:在领域问题层面需解决科学文献中复杂公式与专业术语的语义解析难题,同时应对长文档跨段落连贯性建模的技术瓶颈;数据构建环节需克服PDF文档结构解析中的格式丢失问题,实现从非结构化文档到标准化文本的高保真转换。此外,不同来源数据的质量均衡与去重处理,以及合成数据与真实数据间的分布对齐,均构成数据集构建的核心技术壁垒。
常用场景
经典使用场景
在自然语言处理领域,Dolma 3 Longmino Mix作为大规模预训练语料库,主要应用于大语言模型的第三阶段训练过程。该数据集通过融合合成PDF文档与真实学术文献,为模型提供了丰富的长文本理解素材,特别适用于提升模型对复杂语义结构和专业知识的捕捉能力。
解决学术问题
该数据集有效解决了大语言模型在长文本建模中的关键挑战,包括文档级语义连贯性保持、跨段落信息整合等核心问题。通过提供标准化的长文本训练资源,显著推进了语言模型在学术文献理解、知识推理等方向的研究进程,为可解释性人工智能研究奠定了数据基础。
衍生相关工作
该数据集的发布催生了多项重要研究工作,特别是围绕Olmo 3 32B模型的优化与扩展研究。相关团队在此基础上开展了长文本表示学习、多模态文档理解等方向的探索,推动了基于合成数据与真实数据混合训练范式的标准化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作