MegaMath

github2025-04-04 更新2025-04-07 收录

下载链接：

https://github.com/LLM360/MegaMath

下载链接

链接失效反馈

官方服务：

资源简介：

MegaMath是一个大规模的数学预训练数据集，包含370B个标记。它通过重新访问网络数据、召回数学相关代码数据和探索合成数据三种方式精心策划。数据集包括多种变体，适用于不同的训练需求，如从头训练LLM、从强基础模型进行持续预训练等。

MegaMath is a large-scale mathematical pre-training dataset containing 370 billion tokens. It is meticulously curated through three approaches: revisiting web data, retrieving math-related code datasets, and exploring synthetic data. The dataset includes multiple variants tailored for diverse training requirements, such as training LLMs from scratch and continued pre-training from strong foundation models, and so on.

创建时间：

2025-04-04

原始信息汇总

MegaMath: 开放数学预训练数据集（370B Tokens）

数据集概述

规模：包含370B tokens的大规模数学预训练数据集
特点：专为数学领域设计的高质量预训练数据
组成：通过三种方式构建：
1. 重新处理网络数据：从Common Crawl重新提取数学文档，采用数学导向的HTML优化、基于fasttext的过滤和去重
2. 精选数学相关代码：从大型代码训练语料库Stack-V2中识别高质量数学相关代码
3. 合成数据探索：从网络数据或代码数据合成QA风格文本、数学相关代码和交错文本-代码块

数据变体

MegaMath-Web：完整网络数据集，适用于从头训练LLM
MegaMath-Web-Pro：高质量网络数据子集，适用于从强基础模型进行持续预训练
MegaMath-Code：数学相关代码数据，可增强LLM通过Python代码解决数学相关任务的能力
合成数据：包含超过80B tokens的合成数据，用于进一步增强LLM在数学相关任务上的表现

使用方式

python

下载完整网络数据

from huggingface_hub import snapshot_download snapshot_download( repo_id="LLM360/MegaMath", local_dir="./", repo_type="dataset", allow_patterns=["megamath-web/*"] )

下载高质量网络数据子集

snapshot_download( repo_id="LLM360/MegaMath", local_dir="./", repo_type="dataset", allow_patterns=["megamath-web-pro/*"] )

下载代码和合成数据

snapshot_download( repo_id="LLM360/MegaMath", local_dir="./", repo_type="dataset", allow_patterns=[ "megamath-qa/", "megamath-translated-code/", "megamath-text-code-block/", "megamath-code/" ] )

引用

bibtex @article{zhou2025megamath, title = {MegaMath: Pushing the Limits of Open Math Corpora}, author = {Zhou, Fan and Wang, Zengzhi and Ranjan, Nikhil and Cheng, Zhoujun and Tang, Liping and He, Guowei and Liu, Zhengzhong and Xing, Eric P.}, journal = {arXiv preprint arXiv:2504.02807}, year = {2025}, note = {Preprint} }

搜集汇总

数据集介绍

构建方式

在数学预训练领域，MegaMath数据集通过多维度数据采集策略构建而成。该数据集首先对Common Crawl网络数据进行深度挖掘，采用数学导向的HTML优化处理和基于fasttext的质量过滤机制，确保原始数据的纯净性与专业性。同时创新性地从Stack-V2代码库中提取数学相关代码片段，并运用合成技术生成问答式文本、代码块及混合内容，形成370B tokens的庞大规模。

特点

作为当前最大的开放数学预训练语料库，MegaMath展现出显著的多元化特征。其核心优势在于覆盖网络文档、专业代码和合成数据三大模态，其中包含经过严格筛选的MegaMath-Web-Pro高质量子集，以及专为数学编程任务优化的80B tokens合成数据。不同数据变体经过针对性设计，可灵活支持从零训练、持续预训练到特定能力增强等多样化需求。

使用方法

该数据集通过Hugging Face平台提供模块化访问方案，研究者可根据具体需求选择对应数据子集。完整网络数据适用于基础模型训练，通过指定allow_patterns参数即可下载megamath-web目录；若进行模型微调，推荐采用经过强化处理的megamath-web-pro子集。对于需要提升数学代码能力的场景，可单独加载megamath-code等代码相关数据集，或组合使用问答式文本与混合代码块数据。

背景与挑战

背景概述

MegaMath作为数学领域的大规模预训练数据集，由LLM360团队于2025年推出，旨在突破开放数学语料库的极限。该数据集通过系统性地整合网络文档、数学相关代码及合成数据，构建了包含370B标记的异构语料库。其创新性体现在三方面：采用数学导向的HTML优化技术重构网络爬取流程，基于fasttext的过滤与去重机制提升数据质量，以及通过合成技术生成问答式文本与代码混合数据。该数据集的发布显著推动了数学语言模型预训练领域的发展，为研究者提供了前所未有的高质量数学数据资源。

当前挑战

构建MegaMath面临的核心挑战包括数学语义的精确捕捉与数据质量控制的平衡问题。网络原始数据存在数学符号渲染不一致、隐式逻辑缺失等固有缺陷，需设计专门的HTML解析器与语义验证机制。代码数据筛选需建立数学相关性评估体系，避免引入无关语法噪声。合成数据的生成则面临数学逻辑严谨性与语言流畅性的双重约束。在应用层面，如何有效融合异构数据（自然语言、公式、代码）以提升模型数学推理能力，仍是待解决的关键问题。

常用场景

经典使用场景

在数学领域的自然语言处理研究中，MegaMath数据集因其规模庞大且质量优异，成为训练数学专用语言模型的首选资源。研究者们通常利用该数据集进行数学文本的预训练，以提升模型在数学问题解答、公式推导和数学推理等任务上的表现。其多样化的数据来源，包括网页数据、代码数据和合成数据，为模型提供了丰富的数学知识表示。

衍生相关工作

MegaMath数据集的发布催生了一系列重要的研究工作，特别是在数学语言模型的预训练和微调领域。许多研究团队利用该数据集开发了新型的数学推理模型，如MathBERT和MathGPT，这些模型在多个数学基准测试中取得了突破性成果。此外，该数据集还促进了数学与代码交叉领域的研究，为数学问题的程序化求解提供了新的思路。

数据集最近研究