five

AceReason-1.1-SFT

收藏
Hugging Face2025-06-17 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/nvidia/AceReason-1.1-SFT
下载链接
链接失效反馈
官方服务:
资源简介:
AceReason-1.1-SFT是一个多样化的、高质量的监督微调(SFT)数据集,专注于数学和代码推理。该数据集作为AceReason-Nemotron-1.1-7B模型的SFT训练数据,包含了由DeepSeek-R1生成的所有响应。数据集由2,668,741个数学样本和1,301,591个代码样本组成,涵盖了来自OpenMathReasoning、NuminaMath-CoT、OpenCodeReasoning、MagicoderEvolInstruct、opc-sft-stage2、leetcode、TACO和apps等多个数据源的数据。数据集经过去污染和筛选,确保样本质量。

AceReason-1.1-SFT is a diverse, high-quality supervised fine-tuning (SFT) dataset focused on mathematical and code reasoning. It serves as the SFT training data for the AceReason-Nemotron-1.1-7B model, and contains all responses generated by DeepSeek-R1. The dataset consists of 2,668,741 mathematical samples and 1,301,591 code samples, covering data from multiple sources including OpenMathReasoning, NuminaMath-CoT, OpenCodeReasoning, MagicoderEvolInstruct, opc-sft-stage2, leetcode, TACO, and apps. The dataset has been decontaminated and filtered to ensure sample quality.
提供机构:
NVIDIA
创建时间:
2025-06-17
搜集汇总
数据集介绍
main_image_url
构建方式
在数学与代码推理领域,AceReason-1.1-SFT数据集的构建体现了严谨的科学方法论。该数据集通过整合OpenMathReasoning、NuminaMath-CoT等八个权威数据源,采用九元组重叠检测技术进行数据净化,确保与测试集的独立性。研究人员精心筛选了2,668,741个数学样本和1,301,591个代码样本,所有响应均由DeepSeek-R1模型生成,构建过程严格遵循学术规范。
特点
作为专注于数学与代码推理的专业数据集,AceReason-1.1-SFT展现出显著的领域特异性。其独特价值在于完全排除了通用领域样本,集中呈现高质量的专业推理数据。数据集涵盖多元化的题目类型和解决方案,每个样本都经过严格的质量把控,为监督微调任务提供了精准的训练素材。数据规模达数百万量级,为模型训练提供了充分的多样性保障。
使用方法
该数据集专为数学与代码推理模型的监督微调而设计,使用者可通过HuggingFace平台便捷获取。研究人员建议结合技术报告中的指导,将数据集应用于类似AceReason-Nemotron-1.1-7B模型的训练场景。使用过程中需注意遵守CC BY 4.0许可协议,并建议配合官方提供的评估工具包进行模型性能验证。数据集不包含通用领域样本,因此需要针对特定推理任务进行针对性使用。
背景与挑战
背景概述
AceReason-1.1-SFT数据集由NVIDIA研究团队于2025年6月发布,专注于数学与代码推理领域,旨在为监督微调(SFT)模型提供高质量训练数据。该数据集由Zihan Liu、Zhuolin Yang等研究人员主导构建,整合了OpenMathReasoning、NuminaMath-CoT等八个权威数据源,涵盖2,668,741个数学样本和1,301,591个代码样本。作为AceReason-Nemotron-1.1-7B模型的训练基础,其采用DeepSeek-R1生成响应,通过数据去污染和9-gram重叠过滤技术确保数据纯净性,显著推动了复杂推理任务模型的性能边界。
当前挑战
在领域问题层面,该数据集需解决数学符号多义性解析、代码上下文依赖性建模等核心挑战,这对模型的抽象推理和泛化能力提出极高要求。构建过程中,研究人员面临多源数据异构性整合的难题,包括不同数学表达式的标准化转换、编程语言语法差异的兼容处理。数据去污染环节需精确平衡信息保留与测试集隔离,而大规模样本的质量控制则涉及自动化评估与人工验证的双重机制,这些技术瓶颈的突破为后续研究提供了重要参考。
常用场景
经典使用场景
在数学与代码推理领域,AceReason-1.1-SFT数据集作为监督微调(SFT)的核心资源,广泛应用于训练专精于复杂逻辑推导的生成模型。其覆盖的数学问题求解和编程代码生成场景,为研究者提供了验证模型在分步骤推理、符号运算及算法实现等任务中性能的标准化基准。数据集通过整合OpenMathReasoning、NuminaMath-CoT等权威子集,构建了多粒度、跨难度的评估体系。
衍生相关工作
基于该数据集训练的AceReason-Nemotron系列模型,已在代码补全竞赛MathQA等评测中刷新性能记录。其技术路线衍生出多篇顶会论文,包括对RLHF在数学推理中的改进研究、跨模态程序合成框架等。数据集构建方法论更被Magicoder等后续工作借鉴,形成了代码生成领域的新基准体系。
数据集最近研究
最新研究方向
在数学与代码推理领域,AceReason-1.1-SFT数据集作为NVIDIA推出的高质量监督微调资源,正推动大语言模型在复杂逻辑任务中的性能边界。该数据集整合了OpenMathReasoning、NuminaMath-CoT等八个权威数据源,通过严格的9-gram去重处理确保评估可靠性,其规模达到266万数学样本和130万代码样本,为多模态推理任务提供了前所未有的训练基础。当前研究聚焦于如何利用此类结构化数据优化模型在数学证明生成、算法设计等场景的零样本迁移能力,特别是在与DeepSeek-R1等先进模型的协同训练中展现出显著效果。随着2025年Nemotron系列模型的迭代,该数据集在提升模型符号推理与程序合成能力的交叉研究中占据核心地位,相关技术报告已引发对SFT与强化学习协同训练范式的新一轮探讨。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作