dolma3_mix-5.5T-1125

Name: dolma3_mix-5.5T-1125
Creator: Allen Institute for AI
Published: 2025-11-24 12:38:08
License: 暂无描述

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/allenai/dolma3_mix-5.5T-1125

下载链接

链接失效反馈

官方服务：

资源简介：

Dolma 3 Mix (5.5T)是一个包含约5.5万亿个标记的数据集，用于Olmo-3-1125-32B模型的预训练。数据来源包括多样化的网络内容、学术出版物、代码等，主要来自Common Crawl。该数据集根据Open Data Commons Attribution License v1.0许可证发布，旨在供研究和教育使用。

Dolma 3 Mix (5.5T) is a dataset containing approximately 5.5 trillion tokens, intended for pre-training the Olmo-3-1125-32B model. Its data sources include diverse web content, academic publications, code, etc., primarily sourced from Common Crawl. This dataset is released under the Open Data Commons Attribution License v1.0, and is intended for research and educational purposes.

提供机构：

Allen Institute for AI

创建时间：

2025-11-24

原始信息汇总

Dolma 3 Mix (5.5T) 数据集概述

数据集基本信息

数据集名称: Dolma 3 Mix (5.5T)
许可证: Open Data Commons Attribution License v1.0 (ODC-By)
任务类别: 文本生成
语言: 英语

数据集描述

该数据集用于训练 Olmo-3-1125-32B 模型的预训练阶段，包含约 5.5 万亿个标记，数据来源多样化，包括网络内容、学术出版物、代码等，主要来自 Common Crawl。

配置信息

配置名称: default
数据文件:
- 分割: train
- 路径: data/common_crawl-art_and_design-0016/*

使用说明

用途: 研究和教育用途
负责任使用指南: https://allenai.org/responsible-use

引用信息

技术手稿即将发布，论文地址: https://allenai.org/papers/olmo3

相关资源

原始发布版本: https://huggingface.co/datasets/allenai/dolma

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模语料库的构建对模型预训练至关重要。Dolma 3 Mix数据集通过整合多样化来源构建而成，其核心数据源自Common Crawl网络爬虫项目，同时融合了学术文献、程序代码及其他网络文本资源。该构建过程采用系统化的数据筛选与清洗流程，最终形成包含约5.5万亿词汇单元的混合语料库，为Olmo-3-1125-32B模型的训练提供了坚实基础。

使用方法

该数据集主要服务于自然语言生成任务的研究与教育用途，使用者可通过HuggingFace平台获取授权访问。研究人员可借助该数据集进行大规模语言模型的预训练工作，或将其作为基准数据集评估模型性能。根据ODC-By许可协议要求，使用者需遵循负责任的AI使用准则，并在相关研究中引用指定的技术文献以符合学术规范。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的快速发展，构建高质量预训练数据集成为推动技术突破的关键基础。Dolma 3 Mix数据集由艾伦人工智能研究所于2024年主导构建，旨在为Olmo-3-1125-32B模型提供多源异构的预训练语料。该数据集整合了约5.5万亿语言符号，涵盖网络文本、学术文献与程序代码等多元内容，其核心价值在于通过Common Crawl等开放数据源构建具有代表性的语言知识库，为推进生成式人工智能的泛化能力提供重要支撑。

当前挑战

在语言模型预训练领域，如何有效平衡数据规模与质量始终是核心难题。Dolma 3 Mix需解决多源数据去噪、跨域知识融合及内容安全过滤等关键技术挑战。数据构建过程中面临网络文本语义噪声干扰、学术文献版权合规性校验、代码数据语法规范性维护等操作难点，同时需确保数十种数据源在时间跨度与地域分布上的均衡性，这对数据清洗流程的设计与质量评估标准提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语料库已成为推动模型性能突破的核心要素。Dolma 3 Mix数据集凭借其涵盖网页内容、学术文献与程序代码的多元化结构，为语言模型的预训练阶段提供了关键支持。研究者通过该数据集能够系统性地探索模型在词汇理解、语义生成及跨领域知识融合方面的潜力，尤其在构建具备强泛化能力的通用语言模型时，其丰富的文本来源确保了训练过程的全面性与均衡性。

解决学术问题

该数据集有效应对了当前预训练语言模型面临的数据质量参差与领域覆盖不足等挑战。通过整合Common Crawl等权威来源的万亿级令牌，它不仅缓解了模型因数据偏差导致的性能瓶颈，更为研究社区提供了探索数据清洗策略、多源数据融合机制及模型缩放规律的实验基础。其开放许可协议进一步促进了透明化、可复现的大模型研究范式发展。

实际应用

在实际应用层面，基于Dolma 3 Mix训练的Olmo系列模型已展现出卓越的工程价值。该数据集支撑的模型可部署于智能对话系统、代码生成工具与学术文献分析平台，其跨领域知识储备显著提升了行业场景中的语义理解精度。特别是在处理混合型文本任务时，模型能够灵活调用编程规范、学术术语与日常语言的多维特征，为商业化人工智能解决方案提供了底层数据保障。

数据集最近研究