NuminaMath-LEAN-satp-buffer-pairs-Temp
收藏Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp
下载链接
链接失效反馈官方服务:
资源简介:
NuminaMath-LEAN-satp-buffer-pairs-Temp数据集是一个临时快照,包含从特定运行中挖掘的(定理、成功配置、失败配置)三元组。该数据集专注于Lean4中的定理证明,使用Aesop工具。数据集包含13,116个单差异行,无多差异行。数据模式与主数据集NuminaMath-LEAN-satp-buffer完全一致,但缺少检索上下文(context_lemmas和context_lemma_scores为空)。数据集中的diff_head值分布反映了Aesop-action向量中的位置差异。数据来源于特定目录的JSONL文件,并使用Lean4和Mathlib的特定版本进行处理。数据集适用于定理证明和相关机器学习任务的研究。
The NuminaMath-LEAN-satp-buffer-pairs-Temp dataset is a temporary snapshot containing (theorem, successful configuration, failed configuration) triples mined from a specific run. The dataset focuses on theorem proving in Lean4 using the Aesop tool. It contains 13,116 single-diff (DPO-eligible) lines and no multi-diff lines. The data schema is identical to the main dataset NuminaMath-LEAN-satp-buffer, but lacks retrieval contexts (context_lemmas and context_lemma_scores are empty). The distribution of diff_head values in the dataset reflects positional differences in the Aesop-action vector. The data originates from JSONL files in a specific directory and is processed using specific versions of Lean4 and Mathlib. The dataset is suitable for research in theorem proving and related machine learning tasks.
创建时间:
2026-05-04
原始信息汇总
数据集概述
数据集名称: NuminaMath-LEAN-satp-buffer-pairs-Temp
数据集地址: https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 标签: 定理证明 (theorem-proving), Lean4, Aesop, replay-buffer, preference-pairs
- 数据集规模: 10K < n < 100K
- 配置: 仅包含
default配置,训练集 (train) 文件路径为data/train-*
数据内容
- 总行数: 13,116 对 (pair rows),全部为单差分 (single-diff, DPO-eligible),多差分 (multi-diff) 数量为 0
- 数据格式: 与主数据集
NuminaMath-LEAN-satp-buffer字节一致,可直接追加行记录 - 关键字段:
context_lemmas和context_lemma_scores均为空(本数据集未携带检索信息),建议通过下游合并工具从NuminaMath-LEAN-satp-buffer中按uuid_goal填充
数据来源
- 挖掘脚本:
workspace/scripts/mine_offbyone_pairs.py,解析每个 tactic_string 并计算 40 维整数向量间的位置差分 - 源目录:
workspace/result/expert_dspaug_*/中同时包含successes_shard_*.jsonl和failures_shard_*.jsonl的运行结果 - 工具链: 与主缓冲区一致,基于
leanprover/lean4:v4.17.0-rc1及配套 Mathlib 版本
diff_head 分布 (仅单差分)
| diff_head (位置索引) | 数量 |
|---|---|
| 0 | 34 |
| 1 | 1 |
| 2 | 29 |
| 3 | 741 |
| 4 | 166 |
| 5 | 769 |
| 6 | 268 |
| 7 | 18 |
| 10 | 22 |
| 12 | 1596 |
| 13 | 1955 |
| 14 | 7 |
| 15 | 839 |
| 16 | 923 |
| 17 | 649 |
| 18 | 172 |
| 19 | 578 |
| 20 | 429 |
| 21 | 1014 |
| 22 | 175 |
| 23 | 2731 |
| null (多差分) | 0 |
如何加载
使用 datasets 库加载:
python
from datasets import load_dataset
ds = load_dataset("ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp", split="train")
print(ds)
搜集汇总
数据集介绍

构建方式
NuminaMath-LEAN-satp-buffer-pairs-Temp数据集源自对NuminaMath-LEAN-satp训练集进行的局部`expert_dspaug_*`运行结果,通过脚本`mine_offbyone_pairs.py`解析每条策略字符串,将其转换为40维aesop动作向量后计算位置差异,从而提取出恰好存在单一差异的(定理,成功配置,失败配置)三元组。失败的配置通过父目录名称及`expert_configs`中的文件恢复缺失的字段。整个构建过程与主缓冲区使用相同的Lean 4工具链及数学库版本,确保了数据格式的完全兼容性。
特点
该数据集包含13,116条单一差异行,所有行均适用于直接偏好优化(DPO),且不包含多差异行。每条记录中的`diff_head`字段指示了40维aesop动作向量中产生差异的位置索引,覆盖了从索引0到23的多个位置,其中索引23最为高频。此外,数据集中`context_lemmas`及`context_lemma_scores`字段均为空,便于与下游合并器配合使用,从相同的`uuid_goal`中填充引理信息,增强了数据的灵活性和可扩展性。
使用方法
使用HuggingFace Datasets库可直接加载该数据集,调用`load_dataset`函数并指定数据集名称及`split='train'`即可获取训练数据。由于数据集的模式与主缓冲区`NuminaMath-LEAN-satp-buffer`字节一致,行数据可直接附加到主缓冲区中使用。建议将本数据集与填充了引理信息的主缓冲区进行合并,以补全缺失的`context_lemmas`字段,从而获得完整的训练样本。使用者可参考主缓冲区的README文档获取详细的列含义及分类语义说明。
背景与挑战
背景概述
NuminaMath-LEAN-satp-buffer-pairs-Temp数据集由ChristianZ97等研究人员于近期创建,旨在推动定理证明领域中强化学习与偏好对齐研究的发展。该数据集基于Lean4交互式定理证明器,专注于从数学形式化过程中挖掘(定理,成功配置,失败配置)三元组,为训练基于偏好的排序模型(如DPO)提供了结构化数据。其核心研究问题在于如何利用对比性成功与失败的定理证明策略,提升自动化证明系统的鲁棒性和有效性。作为NuminaMath-LEAN-satp生态体系的一部分,该数据集通过提供细粒度的策略差异标注,为探索证明策略的局部优化与偏好学习奠定了数据基础,对形式化数学与人工智能辅助证明领域具有重要推动作用。
当前挑战
该数据集面临的挑战体现在多个层面。在领域问题层面,定理证明策略优化是一个高维组合搜索问题,成功与失败策略的微小差异(如单步动作变化)可能对证明结果产生决定性影响,数据集需精确捕捉这些局部差异以实现有效的偏好学习,同时对噪声和异常值敏感。在构建过程中,主要挑战包括从大规模、异构的证明执行日志中可靠解析并提取策略动作向量,处理不完整或缺失的元数据(如失败案例的配置标识符需通过目录结构反推),以及确保跨数据分片的模式兼容性和字节级一致性。此外,数据集当前不携带引理检索上下文,与下游组件的融合仍需进一步工程化协调。
常用场景
经典使用场景
在自动定理证明(ATP)与形式化数学验证的交叉领域中,NuminaMath-LEAN-satp-buffer-pairs-Temp数据集扮演着核心基准的角色。它被广泛用于训练和评估基于Lean4的神经符号定理证明系统,特别是那些依赖于Aesop策略自动化机制的智能体。研究者和工程师利用该数据集中精心挖掘的(定理,成功配置,失败配置)三元组,构建偏好学习框架,使模型能够区分有效与无效的策略组合。该数据集通过其独特的单差异(single-diff)结构,为对比学习提供了理想的训练样本,使得证明搜索过程能够从简单的策略调整中快速收敛到正确结论。
衍生相关工作
围绕NuminaMath-LEAN-satp-buffer-pairs-Temp,学术界涌现了一系列重要工作。最直接的相关工作是NuminaMath-LEAN-satp-buffer主数据集的发布,该数据集提供了完整的证明缓冲区信息,为偏好对的生成奠定了基础。基于此,研究者提出了混合偏好优化方法,结合单差异与多差异样本的优势。后续工作如ReProver系统利用该数据集训练了可证明路径的重放策略,提升了搜索效率。此外,该数据集的挖掘方法论——off-by-one策略差异提取——已被应用于其他形式化验证系统(如Isabelle),证明了其思想的普遍性。这些工作共同构建了一个从数据生成到模型优化的闭环生态。
数据集最近研究
最新研究方向
该数据集聚焦于利用人工智能辅助的定理证明领域,特别是基于Lean4形式化证明系统的偏好对(preference pairs)挖掘。通过从NuminaMath-LEAN-satp训练数据中提取定理及其成功与失败的配置对,数据集为DPO(Direct Preference Optimization)等偏好学习算法提供了关键训练素材。这一方向与当前AI for Math的热点事件紧密相连,尤其是在自动定理证明和大规模数学形式化验证的交叉前沿。数据集的构建采用离线对比挖掘方法,通过计算aesop策略向量的位置差异生成单差异对,为后续的奖励建模和策略优化提供了细粒度的监督信号。其意义在于推动机器学习模型在形式化数学推理中的性能突破,加速数学定理的自动化验证进程,并对AI辅助数学研究这一新兴领域产生深远影响。
以上内容由遇见数据集搜集并总结生成



