MegaMath
收藏arXiv2025-04-04 更新2025-04-07 收录
下载链接:
https://hf.co/datasets/LLM360/MegaMath https://github.com/LLM360/MegaMath
下载链接
链接失效反馈官方服务:
资源简介:
MegaMath是一个开放的数学预训练数据集,由MBZUAI创建,包含3710亿个tokens。该数据集通过三个主要步骤构建:1)从Common Crawl中提取高质量的数学文档;2)从大型代码训练语料库Stack-V2中识别高质量的数学相关代码;3)生成合成数据,包括问答对、代码和文本代码块。MegaMath旨在为数学推理的大型语言模型提供高质量的预训练数据。
MegaMath is an open mathematical pre-training dataset created by MBZUAI, comprising 371 billion tokens. This dataset is constructed via three core steps: 1) extracting high-quality mathematical documents from Common Crawl; 2) identifying high-quality mathematics-related code from the large-scale code training corpus Stack-V2; 3) generating synthetic data including question-answer pairs, code snippets and textual code blocks. MegaMath aims to provide high-quality pre-training data for large language models focused on mathematical reasoning.
提供机构:
MBZUAI
创建时间:
2025-04-04
搜集汇总
数据集介绍

构建方式
MegaMath数据集通过多源数据整合与优化构建而成,主要涵盖三个关键领域:网络数据、代码数据及合成数据。网络数据部分通过重新提取Common Crawl中的数学文档,采用数学优化的HTML解析技术、基于fastText的过滤及去重策略,显著提升了数据质量。代码数据部分则从Stack-V2等大规模代码训练语料中筛选出高质量的数学相关代码,进一步增强了数据的多样性。合成数据部分则通过从网络或代码数据中生成问答式文本、数学相关代码及交错文本-代码块,丰富了数据的形式与内容。
特点
MegaMath数据集以其规模庞大(总计371B tokens)和高质量著称,是目前最大的开源数学预训练数据集。其特点包括:网络数据部分通过两阶段提取与过滤流程确保了数据的规模与保真度;代码数据部分通过小语言模型筛选,提升了数学相关代码的精确性;合成数据部分则通过问答对提取、代码翻译及文本-代码块生成,进一步扩展了数据的应用场景。此外,数据集还提供了多个子集(如MegaMath-Web-Pro),以满足不同训练阶段和预算的需求。
使用方法
MegaMath数据集适用于大规模语言模型的数学推理预训练。用户可根据需求选择不同的数据子集,如MegaMath-Web用于基础训练,MegaMath-Web-Pro用于高质量微调。代码数据部分可单独用于增强模型的代码生成与数学问题解决能力,而合成数据部分则适合生成多样化的训练样本。数据集还提供了详细的去重和过滤策略,用户可参考这些方法优化自身的数据处理流程。
背景与挑战
背景概述
MegaMath是由MBZUAI的研究团队于2025年推出的一个开放、大规模、高质量的数学预训练数据集,旨在推动大型语言模型(LLMs)在数学推理方面的能力。该数据集整合了来自网络、代码和合成数据的371B标记,是目前最大的开源数学语料库之一。MegaMath的创建解决了数学领域缺乏高质量预训练数据的问题,为数学推理模型的开发提供了重要资源。该数据集通过优化数据收集和过滤流程,显著提升了数据质量和多样性,对数学推理和人工智能领域的研究具有重要影响。
当前挑战
MegaMath面临的挑战主要包括两个方面:1) 领域问题的挑战:数学推理需要处理复杂的符号、公式和逻辑结构,这对数据集的构建和模型的训练提出了高要求。2) 构建过程中的挑战:在数据收集阶段,需要从Common Crawl等网络资源中高效提取和过滤数学相关内容,同时保留数学符号和公式的完整性;在数据处理阶段,需要进行去重、语言识别和质量过滤,以确保数据的高质量和多样性。此外,合成数据的生成和验证也是一个复杂的过程,需要确保生成的数据具有教育价值和数学准确性。
常用场景
经典使用场景
MegaMath数据集在数学推理领域的大规模语言模型预训练中展现出卓越的应用价值。其精心构建的371B tokens语料库,融合了网页数据、数学相关代码及合成数据,为模型提供了丰富的数学概念、公式推导及问题解决范例。尤其在链式推理(CoT)和程序辅助语言(PAL)任务中,该数据集通过优化HTML数学元素提取、代码翻译及问答对生成,显著提升了模型对数学符号、逻辑结构和多步骤推理的建模能力。
解决学术问题
MegaMath有效解决了数学领域预训练数据稀缺与质量不均的学术难题。传统数学语料常因过度过滤丢失关键内容,或缺乏规范的数学表达(如LaTeX公式)。该数据集通过两阶段文本提取、基于fastText的数学文档分类及代码片段筛选,确保了数据的规模与保真度。其贡献在于:1)填补了开源数学语料在规模(371B tokens)与多样性(网页/代码/合成数据)上的空白;2)通过实证研究验证了数据混合比例(如代码占比≤20%)对数学推理性能的优化作用。
衍生相关工作
MegaMath的构建方法论衍生出多项创新工作:1)HTML数学元素优化提取技术被应用于InfiMM-WebMath等后续数据集;2)其代码翻译流程启发了MathCoder2对多语言数学代码的标准化处理;3)基于LLM的问答对生成策略被Skywork-Math等采用。此外,该数据集推动了对数据去重(如MinHash参数优化)和教育价值评分(Edu≥4过滤)的深入研究,为领域内数据质量控制提供了新范式。
以上内容由遇见数据集搜集并总结生成



