DeepMath-103K

github2025-04-17 更新2025-04-18 收录

下载链接：

https://github.com/zwhe99/DeepMath

下载链接

链接失效反馈

官方服务：

资源简介：

DeepMath-103K是一个精心策划的大规模数学数据集，旨在推动语言模型在数学推理方面的边界。其主要特点包括：1. 挑战性问题：专注于难度较高的数学问题（主要为5-9级），显著提高了复杂性；2. 广泛的主题多样性：涵盖代数、微积分、数论、几何、概率和离散数学等多个数学领域；3. 严格的净化：通过语义匹配对常见基准进行了细致的净化，最小化测试集泄漏并促进公平的模型评估；4. 丰富的数据格式：每个样本都包含问题、最终答案、难度、主题和三种不同的推理路径，以支持各种研究应用。

DeepMath-103K is a carefully curated large-scale mathematical dataset designed to push the boundaries of language models in mathematical reasoning. Its key features are as follows: 1. Challenging problems: Focusing on high-difficulty mathematical questions (primarily Levels 5-9), it significantly enhances overall complexity; 2. Wide thematic diversity: Covering multiple mathematical fields including algebra, calculus, number theory, geometry, probability theory, and discrete mathematics; 3. Strict data purification: It has undergone meticulous purification of common benchmarks via semantic matching, minimizing test set leakage and facilitating fair model evaluation; 4. Rich data format: Each sample contains the question, final answer, difficulty level, topic, and three distinct reasoning paths, supporting a wide range of research applications.

创建时间：

2025-04-14

原始信息汇总

DeepMath-103K 数据集概述

数据集基本信息

名称: DeepMath-103K
发布日期: 2025年4月14日
数据地址: https://huggingface.co/datasets/zwhe99/DeepMath-103K
论文地址: https://arxiv.org/abs/2504.11456
代码地址: https://github.com/zwhe99/DeepMath

主要特点

高难度问题: 主要包含5-9级难度的数学问题，显著高于现有开源数据集的复杂度。
广泛主题覆盖: 涵盖代数、微积分、数论、几何、概率和离散数学等多个数学领域。
严格去污染处理: 通过语义匹配进行细致去污染处理，减少测试集泄露，确保公平评估。
丰富数据格式: 每个样本包含：
- 问题: 数学问题陈述
- 最终答案: 可验证的最终答案
- 难度: 数值化难度评分
- 主题: 层级分类
- 解决方案: 三种不同的推理路径

模型训练结果

7B模型表现

模型	MATH 500	AMC23	Olympiad Bench	Miverva Math	AIME24	AIME25
Qwen2.5-7B-Base	54.8	35.3	27.8	16.2	7.7	5.4
Open-Reasoner-Zero-7B	81.8	58.9	47.9	38.4	15.6	14.4
Qwen-2.5-7B-SimpleRL-Zoo	77.0	55.8	41.0	41.2	15.6	8.7
DeepMath-Zero-7B	85.5	64.7	51.0	45.3	20.4	17.5

1.5B模型表现

模型	MATH 500	AMC23	Olympiad Bench	Miverva Math	AIME24	AIME25
R1-Distill-Qwen-1.5B	84.7	72.0	53.1	36.6	29.4	24.8
DeepScaleR-1.5B-Preview	89.4	80.3	60.9	42.2	42.3	29.6
Still-3-1.5B-Preview	86.6	75.8	55.7	38.7	30.8	24.6
DeepMath-1.5B	89.0	81.6	60.1	40.6	39.8	30.8

快速开始

环境准备

shell git clone --recurse-submodules https://github.com/zwhe99/DeepMath.git && cd DeepMath conda create -y -n deepmath python=3.12.2 && conda activate deepmath pip3 install ray[default] pip3 install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124 pip3 install flash-attn==2.7.4.post1 --no-build-isolation pip3 install omegaconf==2.4.0.dev3 hydra-core==1.4.0.dev1 antlr4-python3-runtime==4.11.0 vllm==0.7.3 pip3 install math-verify[antlr4_11_0]==0.7.0 fire deepspeed tensorboardX prettytable datasets transformers==4.49.0 pip3 install -e verl

引用

bibtex @article{deepmath, title={DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning}, author={He, Zhiwei and Liang, Tian and Xu, Jiahao and Liu, Qiuzhi and Chen, Xingyu and Wang, Yue and Song, Linfeng and Yu, Dian and Liang, Zhenwen and Wang, Wenxuan and Zhang, Zhuosheng and Wang, Rui and Tu, Zhaopeng and Mi, Haitao and Yu, Dong}, year={2025}, eprint={2504.11456}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.11456}, }

搜集汇总

数据集介绍

构建方式

DeepMath-103K数据集的构建过程体现了严谨的科学方法论。研究团队从多元化的数学问题来源中精选题目，通过语义匹配技术进行系统性去污染处理，确保与常见基准测试集无重叠。每个样本均包含完整的数学问题陈述、可验证的最终答案、难度评分和多层级主题分类，并附有三种不同的解题路径，为监督微调和知识蒸馏提供了丰富素材。构建过程中特别注重题目难度的梯度分布，主要聚焦于5-9级高难度题目，显著提升了数据集的挑战性。

特点

该数据集最显著的特征在于其专业性和系统性。题目难度集中在高阶数学水平，覆盖代数、微积分、数论、几何、概率和离散数学等多个数学分支，形成完整的知识体系。每个样本采用结构化数据格式，包含问题描述、标准答案、难度系数、主题分类和多种解题思路，为模型训练提供多维度的监督信号。特别值得注意的是，数据集经过严格的去污染处理，有效避免了测试数据泄露问题，确保了模型评估的公平性和可靠性。

使用方法

使用DeepMath-103K需要配置特定的技术环境。用户需先安装Python 3.12及相关依赖库，包括PyTorch、FlashAttention等深度学习框架。数据集支持通过Hugging Face平台直接获取，也可本地预处理。训练过程采用分布式计算架构，通过Ray框架实现多节点并行。评估阶段需配置VLLM推理引擎，支持最大32768的上下文长度。该数据集特别适合用于强化学习和监督微调场景，用户可根据需要选择不同的训练策略，如难度感知训练或主题专项训练。

背景与挑战

背景概述

DeepMath-103K数据集由Zhiwei He等研究人员于2025年推出，旨在推动语言模型在数学推理领域的边界。该数据集由多个机构合作开发，包括对数学问题难度、多样性和纯净度的严格把控。其核心研究问题聚焦于提升语言模型在复杂数学问题上的推理能力，涵盖代数、微积分、数论、几何等多个数学分支。DeepMath-103K通过提供大规模、高难度且经过严格去污染的数学问题，显著提升了相关领域的研究水平，并为模型训练和评估提供了可靠基准。

当前挑战

DeepMath-103K面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决数学推理中的高难度问题，尤其是Levels 5-9的复杂题目，这对模型的抽象思维和逻辑推理能力提出了极高要求。构建过程中，研究人员需确保数据集的多样性和纯净度，避免测试集泄漏，同时通过语义匹配等技术手段识别并剔除潜在的重复或相似问题。此外，数据集中每个样本的结构化信息（如问题描述、最终答案、难度评分等）的标注和维护也是一项复杂且耗时的任务。

常用场景

经典使用场景

在数学推理领域的研究中，DeepMath-103K数据集因其大规模、高难度和多样性而成为经典工具。该数据集特别适用于训练和评估语言模型在复杂数学问题上的表现，尤其是在代数、微积分、数论等高级数学领域。研究者可以利用其丰富的结构化数据，包括问题陈述、最终答案和多种解题路径，来深入探索模型在数学推理中的能力边界。

解决学术问题

DeepMath-103K解决了数学推理研究中数据质量不高和测试集污染的问题。通过严格的去污染处理和语义匹配技术，该数据集确保了评估的公平性和可靠性。其高难度问题和多样化的数学主题为研究社区提供了一个挑战性的基准，推动了模型在复杂数学任务上的性能提升。

衍生相关工作

基于DeepMath-103K，研究社区已经衍生出多项重要工作。例如，DeepMath-Zero-7B和DeepMath-1.5B等模型在该数据集上训练后，在多个数学基准测试中取得了领先成绩。这些工作不仅验证了数据集的有效性，也为后续数学推理研究提供了新的方向和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集