SAND-Math

Name: SAND-Math
Creator: 先进微设备公司（AMD）
Published: 2025-07-28 13:17:48
License: 暂无描述

arXiv2025-07-28 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/amd/SAND-MATH

下载链接

链接失效反馈

官方服务：

资源简介：

SAND-Math数据集是一个通过利用大型语言模型（LLM）生成的新颖、困难且实用的数学问题和答案的数据集。该数据集由AMD公司的研究团队创建，旨在解决LLM在数学推理方面的训练数据稀缺问题。数据集通过一个自动化的流程生成，首先从零开始生成高质量的问题，然后通过一个名为Difficulty Hiking的步骤系统地提高问题的复杂性。该数据集包含8842个新颖的问题，每个问题都经过正确性、新颖性和难度的严格筛选。数据集的创建过程包括问题生成、答案生成、正确性过滤、去重和去污染、难度过滤和评分、新颖性过滤以及难度提升等步骤。SAND-Math数据集适用于构建更强大、更高效的数学推理LLM，旨在解决数学问题解决和推理领域的问题。

The SAND-Math dataset is a novel, challenging and practical collection of mathematical problems and their corresponding answers generated using large language models (LLMs). Developed by a research team at AMD, this dataset was created to mitigate the scarcity of high-quality training data for LLMs in mathematical reasoning tasks. The dataset generation follows an automated workflow: initially, high-quality problems are generated from scratch, then their complexity is systematically elevated through a stepwise process named Difficulty Hiking. The dataset comprises 8,842 novel problems, each of which has undergone strict filtering across three criteria: correctness, novelty and difficulty level. The complete dataset creation pipeline includes multiple stages: problem generation, answer generation, correctness filtering, deduplication and decontamination, difficulty filtering and scoring, novelty filtering, and difficulty enhancement. The SAND-Math dataset is designed for building more powerful and efficient mathematical reasoning LLMs, with the goal of addressing core challenges in the field of mathematical problem-solving and reasoning.

提供机构：

先进微设备公司（AMD）

创建时间：

2025-07-28

原始信息汇总

SAND-MATH 数据集概述

数据集基本信息

名称: SAND-MATH (Synthetic Augmented Novel and Difficult Mathematics)
语言: 英文 (en)
许可证: 其他 (other)
任务类别: 问答 (question-answering)、文本生成 (text-generation)
标签: 数学 (mathematics)、合成数据 (synthetic-data)、问答 (question-answering)、推理 (reasoning)、大语言模型 (llm)

数据集特点

新颖问题生成: 通过最小约束提示从零生成问题，利用SOTA大语言模型的潜在元认知能力。
系统性难度提升: 通过合成新约束、高级定理和跨领域概念增加问题复杂性。
严格质量控制: 多阶段过滤管道确保解决方案的正确性、内部多样性、去污和网络数据的新颖性。
最先进性能: 在AIME、AMC和MATH等具有挑战性的基准测试中取得顶级结果。

数据集结构

数据分割

train_500: 500样本子集，用于独立微调比较。
train_1k: 1000样本的基础SAND-Math数据。
train_dh_1k: 1000样本的难度提升数据。

数据字段

id: 问题ID
problem: 数学问题文本
solution: 详细的分步解决方案
difficulty_rating: 1-10的难度评分
branch: 主要数学分支
version: 问题版本（stage1: 原始问题，stage2: 难度提升问题）

使用方法

python from datasets import load_dataset dataset = load_dataset("amd/SAND-MATH", name="train_1k")

训练细节

超参数

超参数	值
学习率	5.0e-6
LR调度器类型	cosine
预热比例	0.0
训练周期数	10
梯度累积步数	1
截断长度	32,768
Flash Attention实现	fa2
DeepSpeed策略	ZeRO-3

评估结果

性能比较

训练数据配置	数据样本大小	AIME25	AIME24	AMC	MATH-500	平均
LIMO + SAND-Math	817+500	48.89	57.92	92.50	94.00	73.32

难度提升效果

数据集	数据大小	AIME25	AIME24	AMC24	MATH500	平均
LIMO + SAND-Math (DH)	817 + 1500	49.23	60.55	93.17	94.60	74.39

许可证

类型: ResearchRAIL许可证
用途: 学术和研究目的

引用

bibtex @misc{manem2025sandmathusingllmsgenerate, title={SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers}, author={Chaitanya Manem and Pratik Prabhanjan Brahma and Prakamya Mishra and Zicheng Liu and Emad Barsoum}, year={2025}, eprint={2507.20527}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.20527}, }

搜集汇总

数据集介绍

构建方式

SAND-Math数据集通过多阶段合成管道构建，旨在生成高质量、高难度的数学问题及其解答。首先，利用大型语言模型（LLM）生成初始问题池，随后通过自一致性验证确保解答正确性。其次，采用去重和去污染过滤步骤保证问题的新颖性。最后，通过独特的难度提升模块（Difficulty Hiking）系统性地增加问题复杂度，该模块通过引入高级定理和跨领域数学概念重新构造问题。整个流程结合了严格的质量控制，包括正确性、新颖性和难度评估，最终生成的数据集在难度上超越了现有合成数据集，并与人工精选的真实问题相媲美。

特点

SAND-Math数据集的核心特点在于其高难度和高质量。数据集的问题平均难度评分显著高于其他合成数据集，且覆盖了广泛的数学分支，包括代数、数论、组合数学等。通过难度提升模块，问题复杂度得到系统性增强，使得数据集中的问题更具挑战性。此外，数据集具有极低的污染率（0.2%）和高自一致性（85%），确保了问题的独特性和正确性。这些特点使得SAND-Math成为训练和评估数学推理能力的理想资源。

使用方法

SAND-Math数据集可用于增强大型语言模型的数学推理能力。用户可以通过微调现有模型（如Qwen2.5-32B-Instruct）在数据集上进行训练，以提升模型在复杂数学问题上的表现。此外，数据集还可作为补充数据，与其他数学数据集（如LIMO）结合使用，以进一步提升模型性能。评估时，建议使用AIME、AMC等数学竞赛基准测试模型表现。数据集的全流程生成代码和训练配置已公开，便于复现和扩展。

背景与挑战

背景概述

SAND-Math是由AMD研究院的Chaitanya Manem等研究人员于2025年提出的创新型数学问题生成数据集，旨在解决大语言模型（LLMs）在复杂数学推理任务中高质量训练数据稀缺的核心瓶颈。该数据集通过独创的'难度爬升'（Difficulty Hiking）技术，利用LLMs的元认知能力从零生成具有奥赛级难度的数学问题，其生成的问题平均难度评分达5.98（10分制），显著超越MetaMathQA等现有合成数据集。作为首个不依赖种子数据的自主生成框架，SAND-Math在AIME25基准测试中使基线模型性能提升17.85个绝对百分点，为量化金融、科学计算等需高阶数学推理的领域提供了可扩展的数据解决方案。

当前挑战

SAND-Math面临双重挑战：在领域层面，现有数学数据集（如MATH、GSM8K）受限于人类编撰的复杂度天花板，难以满足LLMs对超线性增长的高难度问题的需求；而合成方法（如WizardMath）通常仅能复现种子数据的难度特征。在构建层面，需克服问题新颖性验证（通过语义哈希实现0.2%的污染率）、解的正确性检验（采用三重自洽验证机制）以及难度动态提升（通过定理-概念交叉注入实现47.2%→76.8%的高难度问题转化率）等关键技术难题，其多级过滤管道最终仅保留初始生成问题的35%，体现了质量与规模间的显著权衡。

常用场景

经典使用场景

SAND-Math数据集专为提升大型语言模型（LLM）的数学推理能力而设计，其核心应用场景包括生成高难度数学问题以增强模型训练。通过独特的难度提升（Difficulty Hiking）流程，该数据集能够系统性地构造奥林匹克竞赛级别的题目，例如数论、代数与组合数学中的复杂问题。其生成的问题具有严格的正确性验证机制，确保题目与解法的逻辑严密性，适用于需要高阶数学推理的模型微调任务。

衍生相关工作

SAND-Math的生成方法启发了多项后续研究，例如结合元认知提示的MetaMathQA和采用强化学习的WizardMath。其难度提升模块被OpenMathInstruct2等工作扩展用于跨学科问题生成。数据集本身也被整合进HuggingFace生态，成为AMD开源的LLM数学推理工具链核心组件，支持Qwen2.5等模型的微调。相关技术还推动了LIMO框架在数据效率优化方面的改进。

数据集最近研究