Nemotron-Math-v2
收藏Hugging Face2025-12-15 更新2025-12-16 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Math-v2
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Math-v2是一个大规模数学推理数据集,包含约34.7万高质量数学问题和850万模型生成的推理轨迹。该数据集整合了人类编写的问题集和多种推理模式及工具使用配置下系统生成的解决方案轨迹。每个问题由gpt-oss-120b模型在六种设置下多次解决,并通过LLM-as-a-judge流程验证答案。数据集适用于训练和评估数学推理系统,并已准备好商业使用。
提供机构:
NVIDIA
创建时间:
2025-12-15
原始信息汇总
Nemotron-Math-v2 数据集概述
数据集基本信息
- 数据集名称:Nemotron-Math-v2
- 所有者:NVIDIA Corporation
- 创建日期:2025年12月3日
- 最后修改日期:2025年12月3日
- 许可协议:Math GPT-OSS AOPS 子集遵循 Creative Commons Attribution 4.0 International License (CC BY 4.0);Math GPT-OSS StackOverflow 和 MathGenSelect 子集遵循 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)。
- 语言:英语
- 商业使用:已准备就绪
数据集描述
Nemotron-Math-v2 是一个大规模数学推理数据集,包含约 34.7 万个高质量数学问题和约 850 万个模型生成的推理轨迹。该数据集整合了人工编写的问题集与在多种推理模式和工具使用配置下系统生成的解决方案轨迹。
数据集构成与生成
问题来源与提取
数据集构建自 AoPS 和 StackExchange-Math 论坛,但未直接使用原始帖子。通过大型语言模型进行问题提取,从原始讨论中分离出明确的数学问题陈述。随后通过一系列基于 LLM 的分类器过滤,移除证明类、选择题、二元是/否问题或无效/上下文依赖的提示。对于原本以证明格式提出的问题,尝试将其重写为基于答案的任务;对于非证明问题,则尝试从讨论中提取最终答案而非完整解法。同时进行了基准去污染,移除与公开数学数据集重叠的问题。最终数据集仅包含非平凡、高质量的数学问题。
AoPS 子集
- 来源:源自 OpenMathReasoning 数据集,其原始数据来自 Art of Problem Solving (AoPS) 社区。
- 特点:包含代数、几何、数论和组合数学的竞赛风格问题;已移除证明类问题以确保答案可验证性;通过难度过滤移除了模型过于容易解决的问题。
- 规模:约 8.5 万个带有已验证参考答案的问题。
StackExchange-Math 子集
- 来源:收集自 Math StackExchange 和 MathOverflow,涵盖从本科水平到研究导向的广泛主题。
- 特点:通过 LLM 分类器过滤了证明类问题;进行了去污染以避免与公开基准重叠;通过难度过滤移除了琐碎项目。
- 规模:约 26.2 万个问题。
推理轨迹生成
对所有问题使用统一流程生成解决方案轨迹。
推理配置
每个问题在 六种配置 下求解:
- 推理深度:高、中、低
- 工具使用:使用 Python TIR,不使用 Python TIR
采样与验证
- 每种配置生成 8 个解决方案,使用不同的随机种子(温度=1.0,top-p=1.0)。
- 参考答案确定:
- 如果问题包含从论坛(AoPS 或 StackExchange)提取的答案,则仅当至少一个高推理模型生成的解决方案(8 个使用 Python TIR 和 8 个不使用的方案中)产生的最终答案被判定与该提取答案一致时,该答案才被保留。
- 如果没有提取的答案,或者所有模型生成的解决方案都与提取的答案不一致,则参考答案被替换为 16 个高推理模型输出中的多数投票结果。
过滤
- 移除在低推理设置下通过率高于 0.8 的问题。
- 通过自动化的 LLM 评判评估丢弃不正确的解决方案。
最终输出
最终数据集包含约 750 万个经过过滤的推理轨迹,反映了多样化的推理策略、工具交互和长格式解决方案模式。
数据集字段
数据集包含以下字段:
- problem:问题陈述,源自 OpenMathReasoning、Math StackExchange 和 MathOverflow。
- generated_solution:使用 gpt-oss-120b 生成的合成解决方案。
- reasoning mode:高、中或低。
- expected_answer:如果 "problem_type" 是 "has_answer_extracted",则为提取的答案;否则,这是针对该问题所有生成解决方案的多数投票答案。
- changed_answer_to_majority:true 或 false。仅当存在提取的论坛答案且被高推理模型解决方案的多数投票答案替换时(即所有模型生成的解决方案都与提取的答案不一致),此标签设置为
true。否则为false(包括没有论坛答案的情况)。 - problem_source:AoPS 或 StackExchange-Math。
- pass_rate_low_mode:低推理模式下 16 次生成(8 次使用 Python TIR,8 次不使用)的通过率。
- pass_rate_medium_mode:中推理模式下 16 次生成(8 次使用 Python TIR,8 次不使用)的通过率。
- pass_rate_high_mode:高推理模式下 16 次生成(8 次使用 Python TIR,8 次不使用)的通过率。
- tool usage:with Python TIR 或 without Python TIR。
- hyperlink:问题的超链接。
- user_hyper_link:用户的超链接。
- user_name:提问者的用户名。
预期用途
该数据集适用于:
- 训练 LLMs 执行结构化数学推理。
- 研究工具增强推理与纯语言推理。
- 构建长上下文或多轨迹推理系统。
- 评估 LLM 推理的鲁棒性和解决方案多样性。
- 研究推理模式、错误模式和验证流程。
数据集特征与量化
- 数据收集方法:混合(自动化、合成)。
- 模态:文本。
- 格式:JSONL。
- 结构:文本 + 元数据。
数据量化
| 子集 | 样本数量 |
|---|---|
| low | 3,476,917 |
| medium | 2,498,497 |
| high | 2,502,564 |
| 总计 | 8,477,978 |
- 总磁盘大小:约 140 GB。
伦理考虑
NVIDIA 认为可信 AI 是共同责任,并已制定政策和实践以支持广泛 AI 应用的开发。开发者根据服务条款下载或使用本数据集时,应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品误用问题。请通过 此链接 报告质量、风险、安全漏洞或 NVIDIA AI 相关问题。
搜集汇总
数据集介绍

构建方式
在数学推理数据集构建领域,Nemotron-Math-v2展现了系统化的工程方法。其核心流程始于从AoPS与StackExchange-Math论坛中提取原始问题,通过大型语言模型进行问题陈述的识别与净化,移除了证明类、选择题等不适宜验证的题型,并进行了基准去污染处理以确保独特性。随后,每个经过筛选的高质量问题由gpt-oss-120b模型在六种不同配置下生成多轮推理轨迹,涵盖高、中、低三种推理深度以及是否使用Python工具交互两种模式。最终,通过基于大型语言模型的答案验证流程与通过率过滤,仅保留答案一致且非平凡的解决方案,从而构建出一个包含约347K问题与850万条高质量推理轨迹的洁净数据集。
特点
该数据集在数学推理资源中呈现出若干显著特质。其内容兼具广度与深度,不仅覆盖了从中学竞赛到研究生水平的代数、几何、数论及组合数学等多个领域,更通过高、中、低三种推理模式与工具使用配置的组合,生成了多样化的解题策略与长程推理轨迹。数据集的结构设计尤为精细,每个问题附有经过严格验证的参考答案以及详细的元数据,包括问题来源、不同推理模式下的通过率及工具使用标记。这种多层次、多配置的解决方案集合,为研究推理模式的稳健性、错误模式以及工具增强推理与纯语言推理的对比提供了丰富的实证材料。
使用方法
针对数学推理系统的开发与评估,该数据集提供了明确的应用路径。研究者可直接加载JSONL格式的数据文件,依据‘reasoning mode’与‘tool usage’等字段筛选特定配置下的推理轨迹,用于训练大型语言模型进行结构化数学推理。在评估场景中,可利用‘pass_rate_*_mode’等字段量化模型在不同难度与工具辅助下的表现。数据集支持构建长上下文或多轨迹推理系统,通过对比同一问题下多种生成方案,深入分析推理的多样性与鲁棒性。其清晰的字段划分与大规模高质量轨迹,使之成为推动数学人工智能前沿研究的理想基准。
背景与挑战
背景概述
Nemotron-Math-v2数据集由NVIDIA公司于2025年12月3日创建并发布,旨在推动数学推理领域的研究进展。该数据集整合了来自Art of Problem Solving社区以及Math StackExchange和MathOverflow论坛的高质量数学问题,通过系统化的生成与验证流程,构建了包含约34.7万道数学问题及850万条模型生成推理轨迹的大规模资源。其核心研究问题聚焦于提升大型语言模型在结构化数学推理、工具增强推理以及长上下文多轨迹推理方面的能力,为数学自动推理系统的训练与评估提供了坚实的数据基础,对相关领域的发展具有显著的推动作用。
当前挑战
该数据集致力于解决数学自动推理领域的核心挑战,即如何构建能够处理复杂、多样化数学问题并生成可靠、可验证推理过程的人工智能系统。在构建过程中,面临多重技术挑战:首先,从论坛原始讨论中精确提取独立、完整的数学问题陈述,需克服文本噪声与上下文依赖的干扰;其次,为确保数据质量,需设计严谨的验证流程,通过LLM作为评判者进行答案一致性校验,并过滤通过率过高或不可靠的问题;此外,在生成多样化推理轨迹时,需平衡不同推理深度与工具使用配置下的解决方案质量与多样性,以构建既具挑战性又洁净的高质量数据集。
常用场景
经典使用场景
在数学推理领域,Nemotron-Math-v2数据集常被用于训练大型语言模型进行结构化数学问题求解。该数据集整合了来自AoPS和StackExchange-Math论坛的高质量数学问题,并辅以模型生成的多样化推理轨迹,为研究者提供了丰富的训练样本。通过涵盖不同推理深度和工具使用配置,它支持模型学习从基础计算到复杂逻辑推演的全方位能力,尤其适用于构建能够处理长上下文和多轨迹推理的先进系统。
解决学术问题
该数据集有效应对了数学推理研究中数据质量与多样性的挑战。它通过严格的验证流程,如LLM作为评判者的答案校验和通过率过滤,消除了琐碎或不可靠的问题,确保了数据的洁净度。这为研究工具增强推理与纯语言推理的对比、模型鲁棒性评估以及错误模式分析提供了可靠基础,推动了数学自动推理领域的理论进展与方法创新。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦于数学推理的经典研究工作。例如,基于其多轨迹生成特性,研究者探索了集成不同推理路径的模型融合方法以提升求解准确性。同时,其工具使用配置激励了关于语言模型与外部计算模块协同机制的研究。此外,数据集的验证流程也促进了LLM作为评判者在自动评估管道中的应用探索,为后续数学数据集的构建与优化设立了参考范式。
以上内容由遇见数据集搜集并总结生成



