AceReason-1.1-SFT

Name: AceReason-1.1-SFT
Creator: NVIDIA
Published: 2025-06-17 10:57:48
License: 暂无描述

Hugging Face2025-06-17 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/nvidia/AceReason-1.1-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

AceReason-1.1-SFT是一个多样化的、高质量的监督微调（SFT）数据集，专注于数学和代码推理。该数据集作为AceReason-Nemotron-1.1-7B模型的SFT训练数据，包含了由DeepSeek-R1生成的所有响应。数据集由2,668,741个数学样本和1,301,591个代码样本组成，涵盖了来自OpenMathReasoning、NuminaMath-CoT、OpenCodeReasoning、MagicoderEvolInstruct、opc-sft-stage2、leetcode、TACO和apps等多个数据源的数据。数据集经过去污染和筛选，确保样本质量。

AceReason-1.1-SFT is a diverse, high-quality supervised fine-tuning (SFT) dataset focused on mathematical and code reasoning. It serves as the SFT training data for the AceReason-Nemotron-1.1-7B model, and contains all responses generated by DeepSeek-R1. The dataset consists of 2,668,741 mathematical samples and 1,301,591 code samples, covering data from multiple sources including OpenMathReasoning, NuminaMath-CoT, OpenCodeReasoning, MagicoderEvolInstruct, opc-sft-stage2, leetcode, TACO, and apps. The dataset has been decontaminated and filtered to ensure sample quality.

提供机构：

NVIDIA

创建时间：

2025-06-17

搜集汇总

数据集介绍

构建方式

在数学与代码推理领域，AceReason-1.1-SFT数据集的构建体现了严谨的科学方法论。该数据集通过整合OpenMathReasoning、NuminaMath-CoT等八个权威数据源，采用九元组重叠检测技术进行数据净化，确保与测试集的独立性。研究人员精心筛选了2,668,741个数学样本和1,301,591个代码样本，所有响应均由DeepSeek-R1模型生成，构建过程严格遵循学术规范。

特点

作为专注于数学与代码推理的专业数据集，AceReason-1.1-SFT展现出显著的领域特异性。其独特价值在于完全排除了通用领域样本，集中呈现高质量的专业推理数据。数据集涵盖多元化的题目类型和解决方案，每个样本都经过严格的质量把控，为监督微调任务提供了精准的训练素材。数据规模达数百万量级，为模型训练提供了充分的多样性保障。

使用方法

该数据集专为数学与代码推理模型的监督微调而设计，使用者可通过HuggingFace平台便捷获取。研究人员建议结合技术报告中的指导，将数据集应用于类似AceReason-Nemotron-1.1-7B模型的训练场景。使用过程中需注意遵守CC BY 4.0许可协议，并建议配合官方提供的评估工具包进行模型性能验证。数据集不包含通用领域样本，因此需要针对特定推理任务进行针对性使用。

背景与挑战

背景概述

AceReason-1.1-SFT数据集由NVIDIA研究团队于2025年6月发布，专注于数学与代码推理领域，旨在为监督微调（SFT）模型提供高质量训练数据。该数据集由Zihan Liu、Zhuolin Yang等研究人员主导构建，整合了OpenMathReasoning、NuminaMath-CoT等八个权威数据源，涵盖2,668,741个数学样本和1,301,591个代码样本。作为AceReason-Nemotron-1.1-7B模型的训练基础，其采用DeepSeek-R1生成响应，通过数据去污染和9-gram重叠过滤技术确保数据纯净性，显著推动了复杂推理任务模型的性能边界。

当前挑战

在领域问题层面，该数据集需解决数学符号多义性解析、代码上下文依赖性建模等核心挑战，这对模型的抽象推理和泛化能力提出极高要求。构建过程中，研究人员面临多源数据异构性整合的难题，包括不同数学表达式的标准化转换、编程语言语法差异的兼容处理。数据去污染环节需精确平衡信息保留与测试集隔离，而大规模样本的质量控制则涉及自动化评估与人工验证的双重机制，这些技术瓶颈的突破为后续研究提供了重要参考。

常用场景

经典使用场景

在数学与代码推理领域，AceReason-1.1-SFT数据集作为监督微调（SFT）的核心资源，广泛应用于训练专精于复杂逻辑推导的生成模型。其覆盖的数学问题求解和编程代码生成场景，为研究者提供了验证模型在分步骤推理、符号运算及算法实现等任务中性能的标准化基准。数据集通过整合OpenMathReasoning、NuminaMath-CoT等权威子集，构建了多粒度、跨难度的评估体系。

衍生相关工作

基于该数据集训练的AceReason-Nemotron系列模型，已在代码补全竞赛MathQA等评测中刷新性能记录。其技术路线衍生出多篇顶会论文，包括对RLHF在数学推理中的改进研究、跨模态程序合成框架等。数据集构建方法论更被Magicoder等后续工作借鉴，形成了代码生成领域的新基准体系。

数据集最近研究