ScaleDiff-Math

Name: ScaleDiff-Math
Creator: 上海人工智能实验室
Published: 2025-09-25 20:22:44
License: 暂无描述

arXiv2025-09-25 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/QizhiPei/ScaleDiff-Math

下载链接

链接失效反馈

官方服务：

资源简介：

ScaleDiff-Math数据集是由上海人工智能实验室的OpenDataLab创建的，用于提升大型推理模型在复杂推理问题上的能力。数据集包含了55.8万个数学推理问题，来源于多个高质量的数学数据子集，包括DeepMath-103K、OpenR1-Math-220K、OpenMathReasoning和NuminaMath等。数据集的创建过程涉及使用AdaptThink模型识别困难问题，并通过DiffGen-8B模型生成新的困难问题。ScaleDiff-Math数据集旨在解决现有数学推理数据集中困难问题数量不足的问题，以提高模型在解决复杂推理问题上的性能。

提供机构：

上海人工智能实验室

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

在数学推理领域，ScaleDiff-Math数据集通过创新流程构建，首先利用自适应思维模型对现有数据集进行单次前向传播，高效识别出需要深度思考的难题。随后基于这些筛选出的难题训练专用生成器DiffGen-8B，使其能够大规模生成新颖且具有挑战性的数学问题。最后通过Qwen3-8B模型为生成问题蒸馏长链思维过程解，并经过规则与模型双重过滤确保数据质量，最终形成包含170万问题-解决方案对的高难度数据集。

特点

该数据集显著特点在于其问题难度分布高度集中于竞赛级别，约88%生成问题被验证属于高难度范畴，能有效激发复杂推理过程。数据集规模达到170万样本，涵盖从基础数学到奥林匹克竞赛的广泛题型，且每个问题均配备经过严格验证的思维链解决方案。其生成过程完全摆脱传统依赖人工标注或复杂提示工程的限制，通过自动化流程实现难度与规模的同步扩展，为模型提供持续进阶的训练信号。

使用方法

研究人员可将该数据集直接用于大型推理模型的监督微调，特别是在增强数学推理能力方面表现出显著效果。使用时应以原始数据集为基础进行数据增强，建议采用标准语言模型训练流程，设置适当批次大小与学习率。评估时可在AIME、HMMT等数学竞赛基准上进行多轮测试，注意模型在处理高难度问题时需要支持长上下文能力，可通过调整位置编码参数扩展上下文窗口至32K令牌以上以完整呈现复杂推理过程。

背景与挑战

背景概述

ScaleDiff-Math数据集由上海人工智能实验室OpenDataLab团队于2025年9月发布，旨在解决大型推理模型在复杂数学推理任务中的训练数据瓶颈问题。该数据集聚焦于高阶数学竞赛级别难题的自动化生成，通过自适应思维模型识别现有数据集中的困难问题，并训练专用生成器大规模合成具有挑战性的数学问题。其核心研究在于探索困难问题对模型复杂推理能力的促进作用，在AIME、HMMT等国际数学竞赛基准测试中显著提升了模型性能，为数学推理领域提供了可扩展的数据构建范式。

当前挑战

该数据集致力于应对数学推理领域的两大挑战：传统方法生成高难度数学问题时存在计算成本高昂、提示设计复杂以及生成问题难度有限等瓶颈。在构建过程中，研究团队需解决困难问题的高效识别难题，通过单次前向传播的自适应思维模型替代传统多次采样的失败率评估；同时需确保生成问题的数学正确性与逻辑严谨性，采用规则过滤与模型过滤的双重机制剔除低质量样本，并利用成本优化的教师模型完成解决方案的蒸馏验证。

常用场景

经典使用场景

在数学推理模型研究领域，ScaleDiff-Math数据集被广泛应用于训练大型推理模型以解决高难度数学问题。该数据集通过自适应思维模型识别现有数据集中的复杂题目，并利用专用生成器大规模合成新的挑战性问题，为模型提供富含深层推理路径的训练样本。其经典使用场景包括在AIME、HMMT等竞赛级数学基准测试上微调模型，显著提升模型在长链推理和复杂问题分解方面的能力。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于难度感知的课程学习框架Light-R1、结合强化学习的AceReason-Nemotron系统等。其核心方法被扩展至代码推理领域，启发了跨模态复杂问题生成技术。后续研究进一步优化了问题难度评估指标，发展了基于思维链一致性的数据过滤机制，形成了以ScaleDiff为基石的难度可扩展数据合成范式，持续推动着推理模型在数学、物理等科学计算领域的发展。

数据集最近研究