DeepMath-103K

arXiv2025-04-16 更新2025-04-17 收录

下载链接：

https://github.com/zwhe99/DeepMath

下载链接

链接失效反馈

官方服务：

资源简介：

DeepMath-103K是由腾讯和上海交通大学共同创建的大型数学问题数据集，包含约103K个数学问题，专为通过强化学习训练高级推理模型而设计。数据集经过严格的筛选和去重，难度集中在Level 5至Level 9，覆盖了从基础代数到高级微积分等多个数学领域，为研究提供了丰富的问题资源和多样化的训练范式。

DeepMath-103K is a large-scale mathematical problem dataset jointly developed by Tencent and Shanghai Jiao Tong University, containing approximately 103K mathematical problems. It is specifically designed for training advanced reasoning models via reinforcement learning. The dataset has undergone strict screening and deduplication, with its difficulty levels concentrated between Level 5 and Level 9, covering multiple mathematical domains ranging from basic algebra to advanced calculus, thus providing abundant problem resources and diverse training paradigms for research.

提供机构：

腾讯

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

DeepMath-103K数据集的构建采用了严谨的四阶段流程：首先通过源分析与收集阶段，从现有开放数学数据集中筛选出具有挑战性的问题；随后进行数据去污处理，确保数据集与标准评估基准无重叠；接着通过难度过滤，仅保留难度等级≥5的问题；最后通过答案验证，确保每个问题均具有可验证的最终答案。该流程涉及138,000美元的GPT-4o API费用和127,000 H20 GPU小时的计算资源，最终形成包含约103K数学问题的数据集。

使用方法

该数据集支持多种前沿研究方法：监督微调可利用三条R1解决方案路径构建丰富的训练语料；强化学习可直接利用可验证答案设计规则化奖励函数；模型蒸馏可通过多解决方案路径实现教师-学生知识迁移。实验表明，基于DeepMath-103K训练的模型在MATH500等基准上准确率提升12.1-30.7个百分点，尤其在RL-Zero框架下展现出显著的推理链延长和认知行为优化特征。

背景与挑战

背景概述

DeepMath-103K是由腾讯与上海交通大学的研究团队于2025年推出的一个大规模数学推理数据集，旨在推动人工智能在复杂数学问题解决领域的发展。该数据集包含约103,000个数学问题，覆盖从基础到高级的多个数学领域，如微积分、代数、几何等。其核心研究问题是提升大型语言模型（LLMs）在数学推理任务中的表现，特别是在强化学习（RL）框架下的应用。DeepMath-103K通过提供已验证的最终答案和多个解决方案路径，支持多种训练范式，包括监督微调、模型蒸馏和基于规则的强化学习。该数据集的推出显著填补了现有数学数据集中高难度、可验证性和无污染性方面的空白，对数学推理领域的研究具有重要影响力。

当前挑战

DeepMath-103K面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集旨在解决复杂数学问题的推理能力，但高难度问题的多样性和复杂性对模型的泛化能力提出了极高要求。此外，数学问题的抽象性和多步骤推理特性使得模型在生成准确且连贯的解决方案时面临困难。在构建过程中，挑战包括数据源的严格去污染处理，以避免与现有评估基准的重叠；高难度问题的筛选和标注需要大量人工和计算资源；以及确保每个问题的最终答案可验证且解决方案路径多样化的复杂性。这些挑战需要通过精细的数据处理流程和高效的算法设计来克服。

常用场景

经典使用场景

DeepMath-103K数据集在数学推理领域具有广泛的应用价值，特别是在训练和评估大型语言模型（LLMs）的复杂数学推理能力方面。该数据集通过提供大规模、高难度且经过严格去污染的数学问题，成为推动数学推理研究的重要资源。其经典使用场景包括监督微调（SFT）和强化学习（RL）训练，特别是在RL-Zero框架下，模型可以通过验证最终答案的二进制奖励来优化推理能力。此外，数据集中的每个问题都附带三个不同的R1生成解决方案，支持多样化的训练范式，如模型蒸馏和奖励建模。

解决学术问题

DeepMath-103K数据集解决了数学推理研究中的多个关键问题。首先，它填补了现有数据集中高难度数学问题不足的空白，通过提供95K个难度级别在5-9之间的挑战性问题，显著提升了模型的推理能力。其次，数据集中的每个问题都包含可验证的最终答案，支持基于规则的强化学习奖励机制，从而避免了奖励黑客行为。此外，数据集经过严格的去污染处理，确保与常见评估基准无重叠，保证了评估结果的可靠性。这些特性使得DeepMath-103K成为推动数学推理研究的重要工具。

实际应用

在实际应用中，DeepMath-103K数据集被广泛用于训练和优化数学推理模型。例如，在监督微调场景中，模型可以通过学习数据集中的多个解决方案路径，提升其解决复杂数学问题的能力。在强化学习框架下，模型通过优化最终答案的正确性，逐步提高其推理准确性。此外，数据集的高难度和多样性使其成为评估模型在竞赛级数学问题（如AIME和AMC）上表现的理想基准。这些应用场景展示了DeepMath-103K在推动AI数学推理能力方面的实际价值。

数据集最近研究