bolmo_mix

Name: bolmo_mix
Creator: Allen Institute for AI
Published: 2025-12-15 23:32:01
License: 暂无描述

Hugging Face2025-12-15 更新2025-12-17 收录

下载链接：

https://huggingface.co/datasets/allenai/bolmo_mix

下载链接

链接失效反馈

官方服务：

资源简介：

Bolmo Mix是一个用于训练Bolmo系列开放字节级语言模型的数据集。该数据集包含多个子集，如Common Crawl、olmOCR Science PDFs、StackEdu、FineMath 3+、arXiv、Wikipedia & Wikibooks以及Character Understanding，总计约172.7B tokens。Bolmo模型在该数据集上训练了不到一个周期（约39.3B tokens）。数据集采用Open Data Commons Attribution License v1.0 (ODC-By)许可，主要用于研究和教育用途。

提供机构：

Allen Institute for AI

创建时间：

2025-12-12

原始信息汇总

Bolmo Mix 数据集概述

数据集基本信息

数据集名称：Bolmo Training Mix (December 2025)
发布机构：allenai
主要任务类别：文本生成
主要语言：英语
许可证：Open Data Commons Attribution License v1.0

数据集构成与规模

该数据集用于训练 Bolmo 系列模型，包含多个子集，总计约 1727 亿个令牌。

子集详情

子集名称	令牌数量	许可证
Common Crawl	1210 亿	ODC-BY
olmOCR Science PDFs	199 亿	ODC-BY
StackEdu	263 亿	ODC-BY
FineMath 3+	41 亿	ODC-BY
arXiv	13 亿	ODC-BY
Wikipedia & Wikibooks	6460 万	ODC-BY
Character Understanding	7550 万	ODC-BY
总计	1727 亿

配置信息

数据集提供多个配置，每个配置对应不同的数据子集路径：

default
cute_style_character
stack_edu
common_crawl
wikipedia
extra_stack_edu
finemath-3plus
olmocr_science_pdfs
arxiv

训练信息

Bolmo 模型在此混合数据集上的训练轮次少于一个完整周期，训练令牌数约为 393 亿。

使用与引用

用途：研究及教育用途。
技术报告：https://allenai.org/papers/bolmo
负责任使用指南：https://allenai.org/responsible-use
引用信息：待发布。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模高质量语料库的构建是推动模型性能突破的关键。Bolmo Mix数据集通过精心整合多个异构数据源而形成，其构建过程体现了系统性数据策展理念。该数据集融合了来自Common Crawl的广泛网络文本、经OCR处理的科学文献PDF（olmOCR Science PDFs）、教育技术问答平台StackEdu的内容、精细数学数据集FineMath 3+、学术预印本平台arXiv的论文、维基百科与维基教科书条目，以及特定风格的角色理解文本。这些数据均经过统一的数据处理流程，并以开放数据共享署名许可（ODC-BY）进行整合，最终构成了总计约1727亿标记的大规模训练混合体，为字节级语言模型的训练提供了坚实的数据基础。

特点

作为训练首个完全开放的竞争性字节级语言模型家族的数据基础，Bolmo Mix展现出鲜明的多源异构与领域平衡特征。数据集不仅在规模上达到千亿标记级别，更在内容构成上实现了广度与深度的结合，覆盖了从通用网络爬取文本到专业学术文献的广泛谱系。其内部包含多个可独立配置的子集，如专注于教育技术的stack_edu、增强数学推理的finemath-3plus以及风格化角色文本cute_style_character等，允许研究者根据具体任务灵活选用。这种模块化设计确保了数据在通用语言建模与特定领域能力培养之间的平衡，为模型提供了丰富而均衡的知识养分。

使用方法

该数据集主要服务于大规模语言模型的预训练与相关研究，其使用方法遵循典型的数据加载与配置范式。用户可通过HuggingFace数据集库，指定不同的配置名称来加载特定的数据子集，例如‘common_crawl’或‘arxiv’，以实现对数据领域的精准控制。数据集整体设计为训练用途，所有数据均归属于‘train’分割，模型训练时通常采用欠采样策略，在总计1727亿标记的数据上训练不足一个周期（约393亿标记），以优化训练效率并避免过拟合。研究者需遵循其附带的负责任使用指南，将数据应用于符合许可要求的科研与教育目的。

背景与挑战

背景概述

Bolmo Mix数据集由艾伦人工智能研究所于2025年12月发布，旨在支持Bolmo系列模型的训练，这是首个完全开源的字节级语言模型家族。该数据集的核心研究问题聚焦于探索字节级表示在大规模语言模型训练中的潜力，以克服传统子词分词方法可能引入的偏差与复杂性。通过整合来自Common Crawl、学术文献PDF、教育技术平台及科学论文预印本等多源异构数据，该数据集为推进语言模型的开放性与可复现性研究提供了关键资源，对自然语言处理领域的模型架构创新与数据治理实践产生了显著影响。

当前挑战

Bolmo Mix数据集致力于解决字节级语言模型训练中的核心挑战，即如何有效利用原始字节序列捕捉语言结构，同时避免子词分词导致的词汇表依赖与信息损失。在构建过程中，面临多源数据集成与质量控制的复杂性，例如从科学PDF中提取文本需克服光学字符识别错误，而整合StackEdu等教育数据则涉及知识密度与格式规范化的平衡。此外，确保总计172.7B令牌规模的数据在许可合规性、去重与代表性方面的严谨性，亦是该数据集构建中的关键难点。

常用场景

经典使用场景

在自然语言处理领域，Bolmo Mix数据集作为大规模、多样化的文本语料库，其经典使用场景主要聚焦于训练字节级语言模型。该数据集整合了来自Common Crawl、学术文献、教育平台及百科资源的高质量文本，为模型提供了丰富的语言结构和知识表示基础。研究人员利用其多源数据特性，能够构建具备强大泛化能力的预训练模型，尤其在处理复杂语义理解和生成任务时展现出显著优势。

解决学术问题

Bolmo Mix数据集有效解决了开放领域语言模型训练中数据质量与多样性不足的学术难题。通过融合科学文献、教育内容和网络文本，该数据集为模型提供了跨领域的知识表示，促进了语言模型在少样本学习、知识推理和长文本生成等方面的研究进展。其字节级训练方式进一步推动了模型在字符序列处理上的创新，为探索更细粒度的语言建模方法奠定了数据基础。

衍生相关工作

该数据集衍生的经典工作主要包括Bolmo系列字节级语言模型的开发与优化。相关研究围绕多源数据融合策略、字节级建模效率提升以及开放领域模型的可控生成等方面展开。这些工作不仅推动了开源语言模型生态的发展，还为后续研究提供了关于数据混合、训练策略和模型评估的重要参考框架，促进了整个社区在透明化模型训练方面的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集