Nemotron-Math

arXiv2025-12-17 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Math-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-Math是由英伟达团队构建的大规模数学推理数据集，整合了8.5万道AoPS竞赛题和26.2万道StackExchange社区数学问题，通过gpt-oss-120b模型生成包含高/中/低三种推理模式及Python工具集成版本的750万条解决方案轨迹，最长支持128K tokens的上下文。该数据集采用严格的质量过滤机制，剔除通过率超过80%的简单问题，确保数据涵盖代数、几何、数论等多元数学领域，为长上下文推理和工具增强的数学建模提供高质量训练资源。其应用显著提升了Qwen等模型在AIME数学竞赛和HLE基准测试中的表现，最高实现100%的maj@16准确率。

Nemotron-Math is a large-scale mathematical reasoning dataset developed by the NVIDIA team. It integrates 85,000 AoPS competition problems and 262,000 mathematical questions from the StackExchange community. Using the gpt-oss-120b model, 7.5 million solution trajectories were generated, which include three reasoning modes (high, medium, low) and Python tool-integrated versions, supporting a maximum context length of 128K tokens. This dataset adopts a strict quality filtering mechanism, eliminating simple problems with a passing rate exceeding 80%, to ensure that the data covers diverse mathematical domains including algebra, geometry, number theory and other fields. It provides high-quality training resources for long-context reasoning and tool-augmented mathematical modeling. Applications based on this dataset have significantly improved the performance of models such as Qwen on the AIME mathematics competition and HLE benchmark tests, achieving a maximum maj@16 accuracy of 100%.

提供机构：

英伟达

创建时间：

2025-12-17

原始信息汇总

Nemotron-Math-v2 数据集概述

数据集基本信息

数据集名称: Nemotron-Math-v2
所有者: NVIDIA Corporation
创建日期: 2025年12月3日
最后修改日期: 2025年12月18日
许可证:
- Math GPT-OSS AOPS 子集受 Creative Commons Attribution 4.0 International License (CC BY 4.0) 管辖。
- Math GPT-OSS StackOverflow 和 MathGenSelect 子集受 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 管辖。
语言: 英语 (en)
数据格式: JSONL
模态: 文本
总磁盘大小: 约 143 GB
数据收集方法: 混合（自动化、合成）

数据集描述

Nemotron-Math-v2 是一个大规模数学推理数据集，包含约 34.7 万个高质量数学问题和 700 万个模型生成的推理轨迹。该数据集整合了人工编写的问题集以及在多种推理模式和工具使用配置下系统生成的解答轨迹。

数据集构成与生成

问题来源与提取

数据集从 AoPS 和 StackExchange-Math 论坛构建，但不直接使用原始帖子。通过 LLM 进行问题提取，从原始讨论中分离出明确的数学问题陈述。随后通过一系列基于 LLM 的分类器过滤，移除证明类、选择题、二元是非题或无效/依赖上下文的提示。对于原本以证明格式提出的问题，尝试将其重写为基于答案的任务，但最终会丢弃所有转换后的证明问题，以确保数据集仅包含具有明确可验证最终答案的问题。此外，还通过移除与公开数学数据集重叠的问题来进行基准去污染。

AoPS 子集

来源: 源自 OpenMathReasoning 数据集，其原始数据来自 Art of Problem Solving (AoPS) 社区。
特点: 包含代数、几何、数论和组合数学的竞赛风格问题；移除了证明类问题以确保答案可验证性；通过难度过滤移除了模型过于容易解决的问题。
最终子集规模: 约 8.5 万个带有已验证参考答案的问题。

StackExchange-Math 子集

来源: 从 Math StackExchange 和 MathOverflow 收集的问题，涵盖从本科水平到研究导向的广泛主题。
特点: 通过 LLM 分类器过滤掉证明类问题；进行去污染以避免与公开基准重叠；通过难度过滤移除简单项目。
最终子集规模: 约 26.2 万个问题。

推理轨迹生成与处理

使用统一流程为所有问题生成解答轨迹。

推理配置

每个问题在 六种配置 下求解：

推理深度：高、中、低
工具使用：使用 Python TIR，不使用 Python TIR

采样与验证

每种配置下使用不同的随机种子生成 8 个解答（温度=1.0，top-p=1.0）。
答案验证流程：
- 如果问题包含从论坛（AoPS 或 StackExchange）提取的答案，则仅当至少一个高推理模型生成的解答（8个使用Python TIR或8个不使用）产生的最终答案被判定与该提取答案一致时，该答案才会被保留。
- 如果没有可用的提取答案，或者所有模型生成的解答都与提取答案不一致，则参考答案将被替换为 16 个高推理模型输出中的多数投票结果。

过滤

移除在低推理设置下通过率高于 0.8 的问题。
通过自动化的 LLM 评判评估丢弃不正确的解答。

最终输出

最终数据集包含约 750 万个经过过滤的推理轨迹，反映了多样化的推理策略、工具交互和长篇解答模式。

数据集字段

数据集包含以下字段：

problem: 源自 OpenMathReasoning、Math StackExchange 和 MathOverflow 的问题陈述。
messages: 用于 LLM 训练的标准消息格式中的用户和助手对话轮次。
expected_answer: 如果 "problem_type" 是 "has_answer_extracted"，则为提取的答案。否则，这是针对该问题所有生成解答的多数投票答案。
changed_answer_to_majority: 布尔值标签。仅当存在提取的论坛答案且被高推理模型解答的多数投票答案替换时（即所有模型生成的解答都与提取答案不一致），才设置为 true。否则为 false（包括没有论坛答案的情况）。
metadata: 不同推理机制和工具使用上的通过率（列表）。
data_source: AoPS 或 StackExchange-Math。
tool: 对于没有可用工具的行为空，对于有可用工具的行为 python 工具定义。
url: 问题的超链接。
user_url: 用户的超链接。
user_name: 提问者的用户名。

数据集量化

子集	样本数量
low	1,718,159
medium	2,502,305
high	2,865,375
总计	7,085,839

预期用途

该数据集适用于：

训练 LLM 执行结构化数学推理。
研究工具增强推理与纯语言推理。
构建长上下文或多轨迹推理系统。
评估 LLM 推理的鲁棒性和解答多样性。
研究推理模式、错误模式和验证流程。

参考

论文链接: https://arxiv.org/abs/2512.15489
引用 BibTeX: bibtex @article{du2025nemotronmath, title = {Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision}, author = {Du, Wei and Toshniwal, Shubham and Kisacanin, Branislav and Mahdavi, Sadegh and Moshkov, Ivan and Armstrong, George and Ge, Stephen and Minasyan, Edgar and Chen, Feng and Gitman, Igor}, journal = {arXiv preprint arXiv:2512.15489}, year = {2025} }

伦理考量

NVIDIA 认为可信赖的 AI 是共同责任，并已制定政策和实践以支持广泛的 AI 应用开发。开发者在根据服务条款下载或使用时，应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品误用问题。请通过此链接报告质量、风险、安全漏洞或 NVIDIA AI 相关问题。

搜集汇总

数据集介绍

构建方式

在数学推理数据集构建领域，追求高质量的监督信号需要融合多样化的推理风格与工具集成能力。Nemotron-Math的构建依托于gpt-oss-120b模型的多模式生成能力，通过整合来自AoPS社区的8.5万道精选竞赛题目与26.2万道源自StackExchange平台的社区数学问题，形成了一个涵盖代数、几何、数论等广泛领域的挑战性问题池。针对每个问题，模型在高中低三种推理模式下分别生成带有及不带有Python工具集成推理的解决方案，并通过严格的答案一致性校验与低通过率过滤，最终从海量生成轨迹中筛选出750万条高质量的长上下文推理轨迹，确保了数据在深度、风格与工具使用上的丰富多样性。

使用方法

为高效利用这一大规模长上下文数据集，研究者可采用提出的序列分桶训练策略。该方法依据序列长度将数据划分为多个桶，并安排模型从短上下文窗口开始逐步训练至128K令牌的全长上下文。每个训练阶段采用针对当前序列长度优化的并行化配置，从而在绝大多数训练步骤中显著提升吞吐量并降低计算开销。在实际应用中，用户可根据目标模型的规模与资源约束，选择特定的推理模式子集进行监督微调，例如专注于高推理模式与Python工具集成推理以追求竞赛基准上的极致性能，或混合多种模式以平衡效率与行为多样性。数据集支持在Qwen3等主流架构上进行缩放研究，并已验证能够使不同规模的模型收敛到相近的最终性能水平。

背景与挑战

背景概述

在大型语言模型推理能力评估领域，数学问题求解因其对多步逻辑演绎、符号操作和长上下文理解的严苛要求，始终被视为核心基准。随着OpenMathInstruct-2、Skywork-MathQA等数据集的相继推出，数学推理研究取得了显著进展。然而，现有数据集大多依赖单一推理模式生成，导致解决方案风格趋同，且在推理深度与工具使用多样性方面存在局限。为应对这一挑战，NVIDIA研究团队于2025年12月发布了Nemotron-Math数据集。该数据集利用gpt-oss-120b模型的多模式生成能力，整合了来自AoPS社区的8.5万道精选竞赛题与26.2万道StackExchange-Math社区数学问题，最终生成了包含750万条解决方案轨迹的大规模资源。其核心研究目标在于通过融合结构化竞赛任务与现实世界多样化数学查询，为模型提供涵盖高、中、低三种推理模式及是否集成Python工具的双重配置的丰富监督信号，从而系统性提升模型在复杂数学场景下的鲁棒性与泛化能力。

当前挑战

Nemotron-Math数据集旨在解决的领域核心挑战是提升大型语言模型在复杂数学推理任务上的性能，特别是针对需要长序列、多步骤逻辑推导及工具协同的竞赛级和开放域问题。其构建过程面临多重技术挑战：首要挑战在于如何确保生成解决方案的多样性与高质量，这要求设计可控的推理模式以产生不同深度和风格的解答，并严格过滤掉对生成模型而言过于简单的题目。其次，数据整合与清洗过程复杂，需从AoPS和StackExchange等异构来源中筛选出可验证答案的非证明类问题，并利用多数投票机制校正原始答案中的噪声与不完整性。再者，处理高达128K令牌的超长上下文解决方案带来了巨大的计算与存储压力，需要设计高效的序列打包与训练策略。最后，平衡不同数据源与推理模式的代表性，避免模型在训练中偏向某一种特定风格，也是确保数据集均衡性与实用性的关键挑战。

常用场景

经典使用场景

在数学推理领域，Nemotron-Math数据集以其大规模、多模态的解决方案轨迹而著称，为训练大型语言模型提供了丰富的监督信号。该数据集最经典的使用场景在于微调语言模型以提升其数学问题解决能力，特别是在需要长上下文理解和多步逻辑推导的复杂任务中。通过整合AoPS竞赛题与StackExchange社区问题，数据集覆盖了从形式化竞赛到开放领域数学查询的广泛范围，使得模型能够在不同难度和风格的数学问题上进行有效训练。

解决学术问题

Nemotron-Math数据集解决了数学推理研究中数据多样性不足和推理深度有限的常见问题。传统数据集往往依赖单一推理模式，导致解决方案风格趋同，缺乏工具使用和长上下文处理的多样性。该数据集通过gpt-oss-120b模型生成高、中、低三种推理模式及工具集成与非工具集成的解决方案，提供了7.5M条长轨迹，显著增强了模型在符号操作、自我验证和工具调用等方面的能力。其意义在于推动了数学推理向更全面、更鲁棒的方向发展，为评估和提升模型的高级推理性能设立了新标准。

实际应用

在实际应用中，Nemotron-Math数据集被广泛用于开发高性能的数学辅助系统和教育工具。基于该数据集训练的模型能够处理从中学竞赛到大学研究级别的数学问题，为在线学习平台、智能辅导系统和自动化解题引擎提供核心支持。例如，在AIME等数学竞赛中，使用该数据集微调的模型实现了接近完美的准确率，展示了其在现实世界数学评估中的强大潜力。此外，数据集的社区问题部分增强了模型对非正式语言和多样化问题表述的适应性，使其更适用于实际教育和技术场景。

数据集最近研究