five

UltraData-Math

收藏
Hugging Face2026-02-15 更新2026-02-16 收录
下载链接:
https://huggingface.co/datasets/Djebbi/UltraData-Math
下载链接
链接失效反馈
官方服务:
资源简介:
UltraData-Math 是一个大规模、高质量的数学预训练数据集,总计包含超过 2900 亿标记,分为三个渐进层级:L1(1705 亿标记的网页语料)、L2(337 亿标记的质量筛选数据)和 L3(880 亿标记的多格式精炼数据)。该数据集旨在系统性地提升大型语言模型(LLM)的数学推理能力,并已应用于 MiniCPM 系列模型的数学预训练。数据集采用 L0-L4 分层数据管理框架,通过标准化解析、启发式清洗、质量模型筛选和精炼生成等步骤,确保数据的高质量和多样性。UltraData-Math 包含多种数据格式,如问答对、多轮对话、多风格改写和教科书式练习,适用于数学推理任务的预训练和微调。实验表明,该数据集在 MiniCPM-1.2B 架构上显著提升了模型在 MATH500 和 GSM8K 等数学基准上的表现。
创建时间:
2026-02-13
原始信息汇总

UltraData-Math 数据集概述

数据集基本信息

  • 名称: UltraData-Math
  • 发布者: UltraData Team
  • 发布日期: 2026年2月9日
  • 许可证: Apache 2.0
  • 语言: 英语(en)、中文(zh)、阿拉伯语(ar)
  • 任务类别: 文本生成(text-generation)
  • 规模类别: 100B < n < 1T
  • 相关标签: llm, pretraining, math, data-synthesis, data-filtering, high-quality, mathematical-reasoning
  • arXiv标识: xxxx.xxxxx

数据集规模与层级

UltraData-Math 是一个大规模、高质量的数学预训练数据集,总规模超过 290B tokens,包含三个渐进层级:

  • L1(过滤数据): 170.5B tokens,包含经过启发式清洗和文档级去重后的网络数学语料。
  • L2(精选数据): 33.7B tokens,通过质量模型筛选出的高质量网络数学语料。
  • L3(精炼数据): 88B tokens,包含多种格式(如问答、多轮对话、多风格改写、知识教科书)精炼后的数据。

数据集配置

数据集包含以下配置,可通过 Hugging Face datasets 库加载:

  • UltraData-Math-L3-Conversation-Synthetic (默认配置)
  • UltraData-Math-L3-Multi-Style-Synthetic
  • UltraData-Math-L3-QA-Synthetic
  • UltraData-Math-L3-Textbook-Exercise-Synthetic
  • UltraData-Math-L2-preview
  • UltraData-Math-L1

设计目标与创新点

该数据集旨在解决现有数学预训练数据构建方案的以下不足:

  • HTML解析: 通用解析器对数学公式支持不佳,易导致公式结构破坏或丢失。
  • 数据质量: 缺乏系统的质量分级机制,高价值数学内容与低质量噪声混杂。
  • 数据多样性: 主流数据集多源于教科书或竞赛题库,缺乏真实网页中的数学讨论和应用场景;合成数据格式单一。

数据处理流程(L0-L4分层管理框架)

L0: 原始数据解析与标准化

  • 目标: 解决通用HTML解析器对数学公式支持差的问题,最大化保留网页中的数学语义。
  • 方法: 开发基于 magic-html 的数学解析器,结合 w3m 布局保留渲染和多级回退策略,将 MathML、KaTeX 和 AsciiMath 统一标准化为 LaTeX 格式。

L1: 启发式清洗与过滤

  • 目标: 去除格式噪声,提高数据的可读性和标准化程度。
  • 方法:
    • 格式修复:清理不可见字符、乱码、不自然的连续换行;移除导航栏、页脚、广告弹窗等无关网络噪声。
    • 内容过滤:长度过滤、语言识别(确保主要为高质量中英文数学内容)、文档级去重。

L2: 基于质量模型的选择

  • 目标: 从海量数据中识别出具有高价值的核心语料。
  • 方法:
    • 使用专有大模型对种子数据进行多维度评分标注。
    • 基于标注数据训练轻量级嵌入分类器。
    • 使用训练好的分类器对L1数据进行全量评分和筛选。

L3: 精炼数据

  • 目标: 通过改写、合成生成和精炼,产出推理清晰、教育意图明确的结构化内容,达到教科书质量标准,确保最大可学习性。
  • 方法:
    • 问答对生成:将陈述性文档改写成“问题-答案”对。
    • 多轮对话合成:模拟“教师-学生”辅导场景生成包含追问、纠错和引导的多轮对话数据。
    • 多风格改写:将单源数据改写成多种风格(如严谨的教科书风格、竞赛解题风格、直观的科普风格)。
    • 知识点教科书生成:基于特定知识点生成系统性的教科书式内容。
    • 格式修复与增强:修复源数据中的格式问题(如破损的LaTeX公式、符号不一致),增强内容连贯性。

实验效果

在 MiniCPM-1.2B 架构上进行评估:

  • MATH500 基准测试上达到 37.02pp,相比 Nemotron-CC 4plus 提升 +3.62pp
  • GSM8K 上达到 61.79pp,提升 +3.34pp,同时保持了代码生成和通用知识能力。
  • 实验验证了 L0 解析策略的有效性,以及 L1、L2、L3 分层框架的渐进提升效果。

应用

该数据集已应用于 MiniCPM 系列模型 的数学预训练。

引用

bibtex @misc{ultradata-math, title={UltraData-Math}, author={UltraData Team}, year={2026}, url={https://huggingface.co/datasets/openbmb/UltraData-Math}, publisher={Hugging Face} }

搜集汇总
数据集介绍
main_image_url
构建方式
在数学推理领域,高质量预训练数据的构建面临诸多挑战,如通用解析器对数学公式支持不足、数据质量参差不齐以及格式单一等。UltraData-Math采用分层的L0-L4数据管理框架,系统性地构建了大规模数学预训练数据集。L0阶段通过专用解析器对原始网页数据进行解析,将MathML、KaTeX和AsciiMath统一转换为LaTeX格式,并采用多级回退策略确保数学语义的完整性。L1阶段运用启发式规则清洗噪声,进行文档级去重和语言识别。L2阶段利用专有大模型标注种子数据,并蒸馏为轻量级嵌入分类器,实现对全量语料的高效质量分级。L3阶段则通过改写、合成和精炼,生成问答对、多轮对话、多风格重写及知识教科书等多种结构化格式,最终形成总计超过290B令牌的三层渐进式数据集。
特点
UltraData-Math数据集在数学预训练领域展现出显著的特征优势。其规模宏大,令牌总量超过290B,涵盖L1、L2和L3三个渐进层级,分别对应大规模网络语料、质量筛选语料和多格式精炼语料。数据多样性突出,不仅包含自然网页中的数学讨论与应用场景,还通过合成技术生成了问答、对话、教科书练习等多种教学风格的内容,有效覆盖了链式推理与多轮交互的需求。质量管控体系严谨,依托分级框架实现了从原始解析到精炼生成的全流程质量控制,确保了数学内容的完整性与信息密度。实验表明,该数据集在MiniCPM-1.2B架构上显著提升了模型在MATH500和GSM8K等数学推理基准上的性能,同时保持了代码生成与通用知识能力。
使用方法
为便捷地利用UltraData-Math数据集,研究者可通过Hugging Face平台直接加载不同层级的配置。使用datasets库的load_dataset函数,指定数据集名称与相应配置名即可访问L1、L2预览或L3精炼数据。L3层进一步提供了对话合成、多风格合成、问答合成及教科书练习合成等多种子配置,用户可根据具体训练目标灵活选择。加载后的数据以Parquet格式存储,支持高效读取与处理。该数据集适用于大规模语言模型的数学预训练,尤其适合提升模型的数学推理、链式思维及多风格表达能力。在实际应用中,建议结合通用语料进行混合训练,以平衡专业数学能力与通用性能。
背景与挑战
背景概述
随着大语言模型在复杂推理任务上的需求日益增长,数学推理能力的提升成为关键研究课题。UltraData-Math数据集由OpenBMB团队于2026年发布,旨在构建一个大规模、高质量、分层次的数学预训练语料库,以系统化增强模型在数学领域的理解和生成能力。该数据集基于UltraData提出的L0-L4分层数据管理框架,通过从原始网页解析、启发式清洗、质量模型筛选到多格式精炼的完整流程,累计提供超过290B标记的数学内容。其核心研究问题聚焦于解决现有数学数据在质量、多样性和结构化方面的不足,通过引入专门的数学解析器、分级质量评估体系以及多样化的合成生成策略,显著提升了模型在MATH500、GSM8K等数学基准上的表现,并为MiniCPM系列模型的数学预训练提供了关键数据支持,推动了数学推理领域的数据标准化与模型能力演进。
当前挑战
UltraData-Math所针对的领域挑战在于提升大语言模型的数学推理能力,这要求数据不仅规模庞大,还需具备高度的语义完整性、多样化的表达形式以及清晰的结构化推理步骤。具体构建过程中的挑战包括:首先,数学网页中公式的复杂性与异构性使得通用HTML解析器难以完整提取并标准化数学内容,易导致公式结构破坏或语义丢失;其次,从海量网络语料中筛选出高质量数学文本面临噪声干扰大、价值密度不均的问题,需设计有效的质量分级机制以区分高价值内容与低质量噪声;此外,自然网页数据多以陈述性文本为主,缺乏链式推理与多轮对话等教育性结构,需通过合成生成技术重构为问答、教材练习等多种格式,以覆盖模型训练所需的多样化场景,并确保生成内容的准确性与教育有效性。
常用场景
经典使用场景
在数学推理领域,高质量预训练数据是提升大语言模型核心能力的关键。UltraData-Math作为大规模、分层的数学数据集,其经典使用场景在于为语言模型提供系统性、多格式的数学内容预训练。通过整合L1的网页数学语料、L2的质量筛选数据以及L3的多风格精炼数据,该数据集能够有效支撑模型从基础概念理解到复杂问题求解的全链条学习。尤其在训练具备逐步推理、多轮对话能力的模型时,其结构化的问答对、教材式练习以及多样化表达风格的数据,为模型提供了丰富的学习素材,显著提升了在MATH500、GSM8K等数学基准测试上的表现。
实际应用
在实际应用层面,UltraData-Math已成功赋能MiniCPM系列模型的数学预训练,显著提升了模型在数学问题解答、逻辑推理及教育辅助等场景中的实用性。例如,在智能教育平台中,基于该数据集训练的模型能够模拟师生对话,提供多步骤解题指导与知识点讲解;在学术研究工具里,模型可协助处理含复杂公式的科技文献,实现内容解析与归纳。其多语言支持(如英文、中文)也拓宽了应用边界,使得不同语言环境的数学学习与专业分析成为可能。这些应用不仅验证了数据集的有效性,也推动了AI在数学密集型领域的落地进程。
衍生相关工作
围绕UltraData-Math衍生的经典工作主要体现在数据构建方法论与模型训练范式的创新上。其基于UltraData的L0-L4分层数据管理框架,为大规模数学数据的高效处理与质量提升设立了新标准,启发了后续数据合成与过滤研究。在模型方面,该数据集直接支撑了MiniCPM系列模型的数学能力优化,相关实验对比了Nemotron-CC-Math、MegaMath等基线数据集,验证了分层精炼策略的优越性。此外,其开源的解析器与生成器工具链,如UltraData-Math-Parser和UltraData-Math-Generator,也为社区提供了可复用的数据工程解决方案,促进了高质量数学数据生态的共建。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作