UltraData-Math

github2026-02-09 更新2026-02-11 收录

下载链接：

https://github.com/UltraData-OpenBMB/UltraData-Math

下载链接

链接失效反馈

官方服务：

资源简介：

UltraData-Math是一个大规模、高质量的数学预训练数据集，总共有290B+的token，分为三个渐进层级：L1（170.5B token的网页语料）、L2（33.7B token的质量筛选数据）和L3（88B token的多格式精炼数据），旨在系统提升大型语言模型（LLMs）的数学推理能力。该数据集已应用于MiniCPM系列模型的数学预训练。

UltraData-Math is a large-scale, high-quality mathematical pre-training dataset with over 290 billion tokens. It is divided into three progressive tiers: L1 (170.5B tokens of web corpus), L2 (33.7B tokens of quality-filtered data), and L3 (88B tokens of multi-format refined data). This dataset is designed to systematically enhance the mathematical reasoning capabilities of large language models (LLMs), and has been applied to the mathematical pre-training of the MiniCPM series models.

创建时间：

2026-01-16

原始信息汇总

UltraData-Math 数据集概述

数据集基本信息

数据集名称：UltraData-Math
发布方：UltraData Team
发布日期：2026年2月9日
总规模：超过2900亿词元
主要用途：用于增强大型语言模型的数学推理能力，已应用于MiniCPM系列模型的数学预训练。

数据集层级与规模

数据集采用渐进式层级结构，包含三个主要层级：

L1 (Filtered Data)：大规模高质量数学预训练数据集，包含1705亿词元的网络数学语料。
L2 (Selected Data)：由质量模型筛选的高质量数学预训练数据集，包含337亿词元的高质量网络数学语料。
L3 (Refined Data)：高质量精炼数学数据集，包含880亿词元的多格式精炼数据（问答、多轮对话、知识教材等）。

数据处理流程

数据集基于UltraData L0-L4分层数据管理框架构建，包含四个处理层级：

L0 - 原始数据

功能：HTML数学解析。
核心工具：UltraData-Math-L0-Parser。
关键特性：
- 统一提取模式：自动识别并合并分散的帖子。
- 多级回退策略：primary → wild_text → readability。
- 数学公式格式标准化：支持将MathML、KaTeX、AsciiMath等格式统一转换为LaTeX。
- 图像LaTeX智能提取：从alt属性中恢复公式。
- 数学容器保护：保护<math>标签不被意外删除。

L1 - 过滤数据

功能：格式修复与内容过滤。
处理方式：
- 清洗不可见字符、连续换行符、导航栏/按钮等噪声文本。
- 过滤过短或长度异常的文本。
特点：数据噪声显著减少，格式一致性提高。

L2 - 筛选数据

功能：质量分类模型筛选。
处理方式：
- 使用专有大模型标注种子数据。
- 蒸馏为轻量级嵌入分类器，实现对全语料的高效质量评分。
- 包含多维度质量标签（数学深度、推理完整性、教育价值）。
特点：保留对提升模型数学推理能力贡献高的样本，数学内容密度显著增加。

L3 - 精炼数据

功能：多格式数据精炼。
处理方式：
- 问答格式生成（带有明确推理步骤的问答对）。
- 多轮对话合成（数学辅导场景）。
- 多风格重写（教科书风格、竞赛风格、科普风格）。
- 知识点教材生成（基于知识点生成教科书风格的学习材料）。
- 格式修复与增强（修复破损的LaTeX公式、不一致的符号表示、增强内容连贯性）。
特点：文本可读性强，推理步骤完整，结构标准化，样本质量高。

实验效果

模型架构：MiniCPM-1.2B。
训练配置：使用约1000亿词元（30%目标数据 + 70%通用数据）进行持续预训练。
关键结果：
- 在MATH500基准测试上达到37.02分，相比Nemotron-CC 4plus提升+3.62分。
- 在GSM8K基准测试上达到61.79分，提升+3.34分。
- 同时保持了代码生成和通用知识能力。

数据获取

L1数据集：https://huggingface.co/datasets/openbmb/UltraData-Math
L2数据集：https://huggingface.co/datasets/openbmb/UltraData-Math-L2
L3数据集：https://huggingface.co/datasets/openbmb/UltraData-Math-L3

许可信息

本项目采用Apache 2.0许可证。

搜集汇总

数据集介绍

构建方式

在数学推理任务中，高质量预训练数据的构建是提升大语言模型能力的关键。UltraData-Math数据集采用L0-L4分层数据管理框架，系统性地构建了总计超过290B标记的大规模数学预训练语料。其构建始于L0层，通过基于magic-html开发的专用解析器，结合w3m布局保留渲染与多级回退策略，将网页中的MathML、KaTeX和AsciiMath等多种数学公式格式统一标准化为LaTeX，确保了数学内容的完整性提取。随后在L1层通过启发式规则进行噪声清洗与文档级去重，在L2层利用专有大模型标注种子数据并蒸馏为轻量级嵌入分类器，实现对全语料的高效质量分级筛选。最终在L3层通过改写、合成与精炼，生成问答、多轮对话、多风格改写及知识教科书等多种格式的结构化高质量数据，形成了从原始网页到精炼教材的渐进式数据流水线。

特点

UltraData-Math数据集的核心特征体现在其规模、质量与多样性三个维度。该数据集总规模超过290B标记，并细分为L1、L2和L3三个渐进层级，其中L1层包含170.5B标记的网页数学语料，L2层为33.7B标记经质量模型筛选的高质量语料，L3层则包含88B标记经多格式精炼的数据。其显著特点在于突破了传统数学数据集在公式解析、质量控制和格式单一方面的局限。通过专用解析器完整保留了数学公式结构，并采用系统的质量分级机制，确保了数据的高信息密度与数学教育价值。此外，数据集涵盖了从原始网页讨论到结构化教科书风格的多种数据形态，包括问答对、多轮教学对话及不同风格的文本改写，极大地丰富了数据的表达多样性与应用场景，为模型提供了全面而深度的数学推理训练素材。

使用方法

该数据集旨在系统化地增强大语言模型的数学推理能力，其使用方法与其分层结构紧密对应。研究人员可根据不同的训练阶段与目标，灵活选用不同层级的数据。L1层的大规模过滤后语料适用于基础预训练，以构建模型对数学文本的基本理解。L2层经质量筛选的高价值语料，可作为核心预训练资源，重点提升模型的数学内容感知与推理逻辑。L3层多种格式的精炼数据，则特别适用于中间训练（MidTraining）和监督微调（SFT）阶段，用于塑造模型的结构化输出、分步推理能力以及在不同数学表达风格间的适应性。实践表明，在MiniCPM系列模型的训练中，混合使用各层级数据能显著提升模型在MATH500、GSM8K等数学基准上的性能，同时保持代码生成与通用知识能力。用户可通过Hugging Face平台获取各层级数据，并参考开源的数据处理工具链进行定制化应用。

背景与挑战

背景概述

在大型语言模型（LLM）的演进历程中，数学推理能力的提升一直是核心挑战之一。高质量的预训练数据是攻克这一难题的关键，然而传统数学数据集在公式解析、质量筛选与多样性方面存在显著局限。为应对这些挑战，OpenBMB研究团队于2026年推出了UltraData-Math数据集，该数据集基于L0-L4层级数据管理框架构建，总规模超过290B tokens，包含从原始网页语料到多格式精炼数据的三个渐进层级。该数据集旨在系统性地增强LLM的数学推理能力，并已成功应用于MiniCPM系列模型的数学预训练，在MATH500、GSM8K等基准测试中取得了显著性能提升，推动了数学增强型语言模型的发展。

当前挑战

UltraData-Math数据集致力于解决数学推理预训练数据构建中的核心挑战。在领域问题层面，传统数据集难以完整保留网页中的数学公式结构，普遍存在的HTML解析器通常破坏或丢失MathML、KaTeX等格式的公式信息，同时数据质量参差不齐，缺乏系统的分级机制，且数据来源单一，过度依赖教科书或竞赛题库，缺乏真实网络讨论与应用场景的多样性。在构建过程层面，研究团队需开发专用的数学解析器以标准化多种公式格式，设计高效的质量分类模型对海量语料进行筛选，并生成涵盖问答、多轮对话、多风格改写等多种格式的高质量精炼数据，以确保数据在规模、质量与多样性上的平衡。

常用场景

经典使用场景

在数学推理领域，高质量预训练数据是提升大语言模型数学能力的关键。UltraData-Math数据集通过其分层架构，为模型预训练提供了经典的应用场景。其L1层的大规模网络数学语料为模型提供了丰富的原始数学表达，L2层经过质量筛选的高价值内容则直接用于增强模型的推理深度，而L3层的多格式精炼数据，如问答对和多轮对话，则被广泛用于模型的指令微调阶段，系统性地塑造模型的解题逻辑与教学交互能力。

衍生相关工作

围绕UltraData-Math的分层数据管理框架，衍生出了一系列重要的工具与方法论。其核心的L0层解析器（UltraData-Math-L0-Parser）作为针对数学内容优化的HTML解析工具，已成为该领域数据采集的新参考。基于质量模型筛选的L2层构建方法，为大规模语料库的自动化质量评估提供了可复现的范式。而L3层的数据精炼流程，则推动了多格式数学数据合成技术的研究，这些工作共同构成了一个从原始网络数据到高质量数学训练资源的完整技术生态。

数据集最近研究