Nemotron-Math-Proofs-v1
收藏Nemotron-Math-Proofs-v1 数据集概述
数据集基本信息
- 数据集名称: Nemotron-Math-Proofs-v1
- 所有者: NVIDIA Corporation
- 创建日期: 2025年12月3日
- 最后修改日期: 2025年12月3日
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
- 语言: 英语
- 数据收集方法: 混合(自动化、合成)
数据集描述
Nemotron-Math-Proofs-v1 是一个大规模数学推理数据集,包含约58万个自然语言证明问题、约55万个Lean 4定理语句的形式化版本,以及约90万个模型生成的推理轨迹,最终形成Lean 4证明。该数据集整合了人工编写的问题与系统生成的形式化和解决方案轨迹。
数据集构成与生成
自然语言问题来源
问题收集自AoPS社区、Math StackExchange和MathOverflow,筛选出基于证明的问题以及可以表述为定理的问题。所有问题都进行了语义去重,并与流行基准进行了去污染处理,最终得到约58万个自然语言定理。
自动形式化
自然语言定理通过由gpt-oss-120b驱动的自动形式化流程,转化为Lean中的形式化语句。该流程包括初始形式化、Lean 4编译检查、回译与语义验证、迭代细化循环、自适应推理和忠实性过滤等阶段,最终得到约55万个形式化定理语句。
自动定理证明
使用Goedel-Prover-V2-32B作为证明器,对定理语句进行大规模推理,以获得推理轨迹和可编译的Lean代码块。证明器流程包括初始证明生成、Lean 4验证、错误增强反馈和迭代细化循环。在证明生成过程中,采用了多轮错误纠正/细化策略,并带有错误轮次删除机制。
数据集格式与量化
- 模态: 文本
- 格式: JSONL
- 结构: 文本 + 元数据
- 训练子集样本数: 239,445
- 总磁盘大小: 约6.2 GB
数据集字段
| 字段 | 类型 | 描述 |
|---|---|---|
uuid |
str |
唯一标识符 |
messages |
list |
已验证的证明尝试,作为聊天对话;每个条目生成正确的Lean 4代码 |
url |
`str | null` |
user_name |
`str | null` |
user_url |
`str | null` |
used_in |
list |
参考信息,指示哪些Nemotron模型在训练中包含了此样本 |
tools |
list |
工具定义 |
预期用途
- 训练LLMs执行结构化数学推理,特别是生成Lean 4形式化证明。
- 构建长上下文或多轨迹推理系统。
- 研究推理模式、错误模式和验证流程。
局限性
- 难度平衡: 除了筛选证明问题外,没有明确尝试对数据集中的问题进行归一化或平衡。各个阶段(自动形式化成功、证明尝试成功等)存在隐含的选择偏差。
- 令牌计数/长度归一化: 最终验证仅依赖于Lean 4编译器不包含错误。一些包含的解决方案包含许多关于多余生成行(如未使用的假设)的警告。
- 占位符/空洞定义: 观察到自动形式化器使用占位符平凡定义而不是mathlib的情况,例如
def MyContinuous... Prop := True。这可以通过最终检查证明仅依赖于三个基础公理来检测。
训练结果
在Qwen3-8B SFT与专门为Lean定理证明训练的Goedel-Prover-V2-8B的比较中,该数据集上训练的模型性能与专门为Lean定理证明训练的模型相当。该数据集被用作Nemotron-Nano-3 SFT数据的一部分。
参考
- Agarwal, Sandhini, et al. gpt-oss-120b & gpt-oss-20b model card. arXiv preprint arXiv:2508.10925 (2025).
- Lin, Yong, et al. Goedel-prover-v2: Scaling formal theorem proving with scaffolded data synthesis and self-correction. arXiv preprint arXiv:2508.03613 (2025).
重要说明
当前上传的数据是一个子集,与用于训练Nemotron-Nano-v3的数据完全匹配。它不包括下面描述的完整数据。我们将在2025年12月17日之前更新上传完整数据集以进行完整的实验复现。




