SAND-Post-Training-Dataset
收藏Hugging Face2025-12-06 更新2025-12-07 收录
下载链接:
https://huggingface.co/datasets/amd/SAND-Post-Training-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
SAND-Post-Training-Dataset是一个高质量的合成推理数据集,专注于数学和科学领域。该数据集通过AMD硬件上的合成数据管道生成,强调难度和新颖性而非数量。数据集包含三个配置:math(14k高难度数学问题)、science(12k需要高级推理的科学问题)和math_dh(1k通过难度提升增强的数学问题)。数据集旨在通过精细调整大型语言模型,实现最先进的推理能力。
提供机构:
AMD
创建时间:
2025-12-04
原始信息汇总
SAND-Post-Training-Dataset 数据集概述
数据集基本信息
- 数据集名称:SAND-Post-Training-Dataset
- 发布机构:AMD
- 语言:英语
- 许可证:Open RAIL-MSD 许可证
- 任务类别:问答
- 标签:数学、科学、合成数据、问答、推理、大语言模型
数据集简介
SAND-Post-Training-Dataset 是一个用于数学和科学领域的高质量合成推理数据集。该数据集完全使用在 AMD ROCm™ 软件栈和 AMD Instinct™ MI325 GPU 上运行的合成数据流水线构建。其核心设计理念是优先考虑难度和新颖性而非数据量,旨在通过高质量、高难度的合成数据提升模型性能。
数据集配置与规模
数据集包含三个独立的配置:
math配置:包含 14,000 个高难度数学问题。science配置:包含 12,000 个需要高级推理的科学问题。math_dh配置:包含 1,000 个通过“难度提升”过程增强的数学问题。
数据生成流水线
数据集通过一个在 AMD 硬件上运行的 4 阶段自动化流水线生成,该流水线优先考虑难度和新颖性。
流水线阶段
- 第一阶段:问答生成与一致性:从头生成新颖问题,要求教师模型生成多个独立的解决方案路径以确保正确性,仅保留所有答案一致的问题。
- 第二阶段:去重与去污染:通过嵌入相似性移除内部重复项,并扫描已知测试集以确保零污染。
- 第三阶段:难度提升:由教师模型重写中等难度的问题,引入更深层的推理链、附加约束或跨领域逻辑,以系统性提升问题复杂度。
数据集有效性验证
实验表明,使用此数据集训练的模型能够取得卓越效果。
1. 弥合代际差距
使用混合的数学/科学数据集微调 DeepSeek-R1-Distill-Qwen-32B 模型,使其在关键基准测试中达到甚至超越下一代 Qwen3-32B 模型的性能。
2. 数据效率
仅使用数据集的 math 配置进行标准监督微调,模型性能即可超越使用 5 倍至 50 倍更大数据量训练的其他模型。
快速开始
可以使用 Hugging Face datasets 库加载数据集:
python
from datasets import load_dataset
math_dataset = load_dataset("amd/SAND-Post-Training-Dataset", "math")
science_dataset = load_dataset("amd/SAND-Post-Training-Dataset", "science")
math_dh_dataset = load_dataset("amd/SAND-Post-Training-Dataset", "math_dh")
相关资源
- 论文:https://arxiv.org/pdf/2507.20527
- 模型集合:https://huggingface.co/collections/amd/sand
- GitHub 仓库:https://github.com/AMD-AGI/sand-pipeline
- 博客文章:https://rocm.blogs.amd.com/artificial-intelligence/sand-math/README.html
- 许可证文件:https://huggingface.co/datasets/amd/SAND-Post-Training-Dataset/blob/main/LICENSE
引用
如果使用此数据集,请引用相关论文。
搜集汇总
数据集介绍

构建方式
在数学与科学推理领域,高质量数据集的构建对提升大语言模型的逻辑能力至关重要。SAND-Post-Training-Dataset采用一套四阶段自动化合成管道,依托AMD ROCm™软件栈与AMD Instinct™ MI325 GPU硬件平台运行。该管道以难度与新颖性为核心导向,首先通过教师模型GPT-OSS120b生成原始问题并验证多解路径的一致性,确保答案正确性;继而执行去重与去污染步骤,利用嵌入相似性剔除内部重复,并严格筛查公开测试集以避免数据泄露;最后通过难度提升机制,对中等难度问题进行改写,引入更深层的推理链或跨领域约束,系统性地增强问题复杂度,从而生成兼具挑战性与原创性的数学与科学题目。
特点
该数据集在合成数据领域展现出鲜明的特色,其设计哲学强调质优于量,通过有限但高难度的样本驱动模型性能跃升。数据集包含三个独立配置:数学部分收录一万四千道高难度数学问题,科学部分涵盖一万两千道需要高级推理的科学题目,而数学难度提升部分则包含一千道经过系统性复杂化处理的数学问题。所有样本均附有详细的推理链,旨在直接优化模型的分步推理能力。实验表明,仅使用一万四千个数学样本进行监督微调,即可使基础模型在AIME等基准测试中媲美或超越使用数十倍数据训练的同类模型,印证了其高效的知识密度与卓越的泛化潜力。
使用方法
为便于研究社区利用该数据集进行模型微调与推理能力研究,其加载流程设计得极为简洁。用户可通过Hugging Face的datasets库直接访问不同配置的数据。具体而言,调用load_dataset函数并指定数据集路径与配置名称,即可分别加载数学、科学及难度提升数学子集。加载后的数据可直接用于标准的有监督微调流程,无需额外预处理。数据集采用Open RAIL-MSD许可证,允许商业使用、修改与分发,但包含旨在促进负责任人工智能发展的使用限制条款,确保其在符合伦理的框架下赋能前沿模型开发。
背景与挑战
背景概述
在人工智能领域,提升大型语言模型的复杂推理能力是核心研究议题之一。由AMD研究团队于2025年创建的SAND-Post-Training-Dataset,正是针对这一前沿问题而构建的高质量合成数据集。该数据集专注于数学与科学领域,旨在通过精心设计的难题与新颖问题,驱动模型实现卓越的推理性能。其核心研究问题在于探索如何利用有限但高难度的合成数据,有效弥合不同代际模型之间的能力差距,并证明数据质量相较于数据规模具有更关键的影响力。这项工作不仅展示了专用硬件与合成数据流程的结合潜力,也为社区提供了构建先进推理模型的重要资源。
当前挑战
该数据集致力于解决复杂数学与科学问题自动问答领域的核心挑战,即如何生成兼具高难度、新颖性且逻辑严密的推理问题,以突破模型在深度推理任务上的性能瓶颈。在构建过程中,研究团队面临多重技术挑战:首先,确保合成问题的原创性并避免与现有基准测试集发生数据污染,这要求进行严格的去重与去污染扫描;其次,通过系统性的难度提升机制,将中等难度问题转化为需要跨领域知识与深层逻辑链的高阶问题,这一过程对生成模型的引导与控制提出了极高要求;最后,在有限数据规模下实现模型性能的显著跃升,需要平衡问题的质量、多样性与训练效率,这构成了数据集设计与评估中的关键难题。
常用场景
经典使用场景
在人工智能与自然语言处理领域,高质量推理数据的稀缺性长期制约着大型语言模型在复杂任务上的性能突破。SAND-Post-Training-Dataset以其精心构建的数学与科学问题集合,为模型的后训练阶段提供了经典的应用场景。该数据集通过强调难度与新颖性,而非单纯追求数据规模,被广泛用于对预训练模型进行监督微调,旨在显著提升模型在多层次推理、逻辑演绎以及跨学科问题解决方面的核心能力。研究人员通常利用其包含的详细推理链,引导模型学习严谨的思维过程,从而在各类学术基准测试中实现性能的飞跃。
衍生相关工作
该数据集的发布催生并紧密关联了一系列探索高质量合成数据价值的经典工作。其核心论文《SAND-Math》本身即是一项奠基性研究,系统阐述了以难度为导向的数据生成管线。基于此数据集微调得到的SAND-MathScience-DeepSeek-Qwen32B等模型,已成为评估合成数据效能的基准。这些工作共同推动了社区对‘数据质量优于数量’理念的深入探讨,并激励了后续研究进一步优化数据合成、难度度量与去污染技术,形成了围绕高效后训练数据构建的新兴研究方向。
数据集最近研究
最新研究方向
在数学与科学推理领域,高质量合成数据的构建正成为提升大语言模型性能的关键路径。SAND-Post-Training-Dataset通过其创新的四阶段自动化流程,强调难度与新颖性优先于数据规模,为模型后训练提供了精炼的语料。该数据集的前沿探索集中于利用合成数据管道系统性地提升问题的复杂性与推理深度,通过难度爬升技术将中等挑战性问题重构为需要跨领域逻辑与深层推理链的高阶题目。这一方向与当前追求模型高效训练、减少数据依赖的行业趋势紧密契合,其验证实验表明,仅用万级数据量即可使模型在AIME、MATH等基准测试中媲美或超越使用数十倍数据训练的模型,彰显了合成数据在解锁模型推理能力方面的巨大潜力与效率优势。
以上内容由遇见数据集搜集并总结生成



