AceReason-1.1-SFT

Name: AceReason-1.1-SFT
Creator: maas
Published: 2025-12-18 16:38:37
License: 暂无描述

魔搭社区2025-12-18 更新2025-06-21 收录

下载链接：

https://modelscope.cn/datasets/nv-community/AceReason-1.1-SFT

下载链接

链接失效反馈

官方服务：

资源简介：

# AceReason-1.1-SFT <p align="center"> [![Technical Report](https://img.shields.io/badge/2506.13284-Technical_Report-blue)](https://arxiv.org/abs/2506.13284) [![SFT Dataset](https://img.shields.io/badge/🤗-SFT_Datset-blue)](https://huggingface.co/datasets/nvidia/AceReason-1.1-SFT) [![Math RL Dataset](https://img.shields.io/badge/🤗-Math_RL_Datset-blue)](https://huggingface.co/datasets/nvidia/AceReason-Math) [![Models](https://img.shields.io/badge/🤗-Models-blue)](https://huggingface.co/collections/nvidia/acereason-682f4e1261dc22f697fd1485) [![Eval Toolkit](https://img.shields.io/badge/🤗-Eval_Code-blue)](https://huggingface.co/nvidia/AceReason-Nemotron-14B/blob/main/README_EVALUATION.md) </p> <img src="fig/main_fig.png" alt="main_fig" style="width: 1000px; max-width: 100%;" /> AceReason-1.1-SFT is a diverse and high-quality supervised fine-tuning (SFT) dataset focused on math and code reasoning. It serves as the SFT training data for [AceReason-Nemotron-1.1-7B](https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B), with all responses in the dataset generated by [DeepSeek-R1](https://huggingface.co/deepseek-ai/DeepSeek-R1). AceReason-1.1-SFT contains 2,668,741 math samples and 1,301,591 code samples, covering the data sources from [OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning), [NuminaMath-CoT](https://huggingface.co/datasets/AI-MO/NuminaMath-CoT), [OpenCodeReasoning](https://huggingface.co/datasets/nvidia/OpenCodeReasoning), [MagicoderEvolInstruct](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K), [opc-sft-stage2](https://huggingface.co/datasets/OpenCoder-LLM/opc-sft-stage2), [leetcode](https://huggingface.co/datasets/ibragim-bad/leetcode_solutions), [TACO](https://huggingface.co/datasets/BAAI/TACO), and [apps](https://huggingface.co/datasets/codeparrot/apps). We conduct data decontamination and filter the sample that has a 9-gram overlap with any test sample in our math and coding benchmarks. For more details, check our [technical report](https://arxiv.org/abs/2506.13284). The following are the statistics for AceReason-1.1-SFT. | **Source** | **# Question** | **# Sample** | | :---: | :---: | :---: | | OpenMathReasoning | 270,534 | 2,147,570 | | NuminaMath-CoT | 78,880 | 521,171 | | OpenCodeReasoning | 35,374 | 763,495 | | MagicoderEvolInstruct | 27,625 | 27,625 | | opc-sft-stage2 | 79,938 | 323,163 | | leetcode | 5,571 | 126,878 | | TACO | 16,726 | 56,694 | | apps | 159 | 3,736 | ## Correspondence to Zihan Liu (zihanl@nvidia.com), Zhuolin Yang (zhuoliny@nvidia.com), Yang Chen (yachen@nvidia.com), Chankyu Lee (chankyul@nvidia.com), Wei Ping (wping@nvidia.com) ## License This dataset is licensed under the Creative Commons Attribution 4.0 International License (CC BY 4.0) available at https://creativecommons.org/licenses/by/4.0/legalcode. ## Intended Usage The AceReason-1.1-SFT Dataset only contains math and code reasoning data, without any general general-domain or non-reasoning samples. It is specifically designed for training SFT models focused on math and code reasoning. ## Release Date June 16, 2025 ## Ethical Considerations NVIDIA believes Trustworthy AI is a shared responsibility and we have established policies and practices to enable development for a wide array of AI applications. When downloaded or used in accordance with our terms of service, developers should work with their internal model team to ensure this model meets requirements for the relevant industry and use case and addresses unforeseen product misuse. Please report security vulnerabilities or NVIDIA AI Concerns [here](https://www.nvidia.com/en-us/support/submit-security-vulnerability/). ## Citation ``` @article{liu2025acereason, title={AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy}, author={Liu, Zihan and Yang, Zhuolin and Chen, Yang and Lee, Chankyu and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei}, journal={arXiv preprint arXiv:2506.13284}, year={2025} } ```

# AceReason-1.1-SFT <p align="center"> [![arXiv编号2506.13284技术报告](https://img.shields.io/badge/2506.13284-Technical_Report-blue)](https://arxiv.org/abs/2506.13284) [![🤗 SFT数据集](https://img.shields.io/badge/🤗-SFT_Dataset-blue)](https://huggingface.co/datasets/nvidia/AceReason-1.1-SFT) [![🤗 数学强化学习数据集](https://img.shields.io/badge/🤗-Math_RL_Dataset-blue)](https://huggingface.co/datasets/nvidia/AceReason-Math) [![🤗 模型](https://img.shields.io/badge/🤗-Models-blue)](https://huggingface.co/collections/nvidia/acereason-682f4e1261dc22f697fd1485) [![🤗 评估工具包](https://img.shields.io/badge/🤗-Eval_Code-blue)](https://huggingface.co/nvidia/AceReason-Nemotron-14B/blob/main/README_EVALUATION.md) </p> <img src="fig/main_fig.png" alt="主示意图" style="width: 1000px; max-width: 100%;" /> AceReason-1.1-SFT是一个高质量且涵盖多元场景的监督微调（SFT）数据集，聚焦数学与代码推理任务。该数据集作为[AceReason-Nemotron-1.1-7B](https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B)的监督微调训练数据，数据集中所有回复均由[DeepSeek-R1](https://huggingface.co/deepseek-ai/DeepSeek-R1)生成。 AceReason-1.1-SFT共包含2,668,741条数学样本与1,301,591条代码样本，其数据来源涵盖[OpenMathReasoning](https://huggingface.co/datasets/nvidia/OpenMathReasoning)、[NuminaMath-CoT](https://huggingface.co/datasets/AI-MO/NuminaMath-CoT)、[OpenCodeReasoning](https://huggingface.co/datasets/nvidia/OpenCodeReasoning)、[MagicoderEvolInstruct](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K)、[opc-sft-stage2](https://huggingface.co/datasets/OpenCoder-LLM/opc-sft-stage2)、[leetcode](https://huggingface.co/datasets/ibragim-bad/leetcode_solutions)、[TACO](https://huggingface.co/datasets/BAAI/TACO)以及[apps](https://huggingface.co/datasets/codeparrot/apps)。我们对数据进行了去污染处理，并过滤掉与我们数学与代码基准测试集中的任一测试样本存在9-gram重叠的样本。如需了解更多细节，请查阅我们的[技术报告](https://arxiv.org/abs/2506.13284)。以下为AceReason-1.1-SFT的统计信息： | **数据来源** | **问题数量** | **样本数量** | | :---: | :---: | :---: | | OpenMathReasoning | 270,534 | 2,147,570 | | NuminaMath-CoT | 78,880 | 521,171 | | OpenCodeReasoning | 35,374 | 763,495 | | MagicoderEvolInstruct | 27,625 | 27,625 | | opc-sft-stage2 | 79,938 | 323,163 | | leetcode | 5,571 | 126,878 | | TACO | 16,726 | 56,694 | | apps | 159 | 3,736 | ## 通讯作者刘梓涵（zihanl@nvidia.com）、杨卓林（zhuoliny@nvidia.com）、陈阳（yachen@nvidia.com）、李灿圭（chankyul@nvidia.com）、魏平（wping@nvidia.com） ## 许可协议本数据集采用知识共享署名4.0国际许可协议（CC BY 4.0）进行授权，许可协议详情可访问：https://creativecommons.org/licenses/by/4.0/legalcode。 ## 预期用途 AceReason-1.1-SFT数据集仅包含数学与代码推理类数据，不包含任何通用领域或非推理类样本，专为训练聚焦数学与代码推理的监督微调模型设计。 ## 发布日期 2025年6月16日 ## 伦理考量英伟达（NVIDIA）认为，可信人工智能是一项共同责任，我们已制定相关政策与实践规范，以支持各类人工智能应用的开发。开发者在按照服务条款下载或使用本数据集时，应与内部模型团队协作，确保模型符合相关行业与应用场景的要求，并防范可能出现的产品误用问题。请通过[此链接](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)提交安全漏洞报告或反馈英伟达人工智能相关问题。 ## 引用格式 @article{liu2025acereason, title={AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy}, author={Liu, Zihan and Yang, Zhuolin and Chen, Yang and Lee, Chankyu and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei}, journal={arXiv preprint arXiv:2506.13284}, year={2025} }

提供机构：

maas

创建时间：

2025-06-18

5,000+

优质数据集

54 个

任务类型

进入经典数据集