NuminaMath-LEAN-satp-buffer-pairs-Temp

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp

下载链接

链接失效反馈

官方服务：

资源简介：

NuminaMath-LEAN-satp-buffer-pairs-Temp数据集是一个临时快照，包含从特定运行中挖掘的（定理、成功配置、失败配置）三元组。该数据集专注于Lean4中的定理证明，使用Aesop工具。数据集包含13,116个单差异行，无多差异行。数据模式与主数据集NuminaMath-LEAN-satp-buffer完全一致，但缺少检索上下文（context_lemmas和context_lemma_scores为空）。数据集中的diff_head值分布反映了Aesop-action向量中的位置差异。数据来源于特定目录的JSONL文件，并使用Lean4和Mathlib的特定版本进行处理。数据集适用于定理证明和相关机器学习任务的研究。

The NuminaMath-LEAN-satp-buffer-pairs-Temp dataset is a temporary snapshot containing (theorem, successful configuration, failed configuration) triples mined from a specific run. The dataset focuses on theorem proving in Lean4 using the Aesop tool. It contains 13,116 single-diff (DPO-eligible) lines and no multi-diff lines. The data schema is identical to the main dataset NuminaMath-LEAN-satp-buffer, but lacks retrieval contexts (context_lemmas and context_lemma_scores are empty). The distribution of diff_head values in the dataset reflects positional differences in the Aesop-action vector. The data originates from JSONL files in a specific directory and is processed using specific versions of Lean4 and Mathlib. The dataset is suitable for research in theorem proving and related machine learning tasks.

创建时间：

2026-05-04

原始信息汇总

数据集概述

数据集名称: NuminaMath-LEAN-satp-buffer-pairs-Temp
数据集地址: https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp

基本信息

许可证: Apache-2.0
语言: 英语
标签: 定理证明 (theorem-proving), Lean4, Aesop, replay-buffer, preference-pairs
数据集规模: 10K < n < 100K
配置: 仅包含 default 配置，训练集 (train) 文件路径为 data/train-*

数据内容

总行数: 13,116 对 (pair rows)，全部为单差分 (single-diff, DPO-eligible)，多差分 (multi-diff) 数量为 0
数据格式: 与主数据集 NuminaMath-LEAN-satp-buffer 字节一致，可直接追加行记录
关键字段: context_lemmas 和 context_lemma_scores 均为空（本数据集未携带检索信息），建议通过下游合并工具从 NuminaMath-LEAN-satp-buffer 中按 uuid_goal 填充

数据来源

挖掘脚本: workspace/scripts/mine_offbyone_pairs.py，解析每个 tactic_string 并计算 40 维整数向量间的位置差分
源目录: workspace/result/expert_dspaug_*/ 中同时包含 successes_shard_*.jsonl 和 failures_shard_*.jsonl 的运行结果
工具链: 与主缓冲区一致，基于 leanprover/lean4:v4.17.0-rc1 及配套 Mathlib 版本

diff_head 分布 (仅单差分)

diff_head (位置索引)	数量
0	34
1	1
2	29
3	741
4	166
5	769
6	268
7	18
10	22
12	1596
13	1955
14	7
15	839
16	923
17	649
18	172
19	578
20	429
21	1014
22	175
23	2731
null (多差分)	0

如何加载

使用 datasets 库加载： python from datasets import load_dataset ds = load_dataset("ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp", split="train") print(ds)

搜集汇总

数据集介绍

构建方式

NuminaMath-LEAN-satp-buffer-pairs-Temp数据集源自对NuminaMath-LEAN-satp训练集进行的局部`expert_dspaug_*`运行结果，通过脚本`mine_offbyone_pairs.py`解析每条策略字符串，将其转换为40维aesop动作向量后计算位置差异，从而提取出恰好存在单一差异的（定理，成功配置，失败配置）三元组。失败的配置通过父目录名称及`expert_configs`中的文件恢复缺失的字段。整个构建过程与主缓冲区使用相同的Lean 4工具链及数学库版本，确保了数据格式的完全兼容性。

特点

该数据集包含13,116条单一差异行，所有行均适用于直接偏好优化（DPO），且不包含多差异行。每条记录中的`diff_head`字段指示了40维aesop动作向量中产生差异的位置索引，覆盖了从索引0到23的多个位置，其中索引23最为高频。此外，数据集中`context_lemmas`及`context_lemma_scores`字段均为空，便于与下游合并器配合使用，从相同的`uuid_goal`中填充引理信息，增强了数据的灵活性和可扩展性。

使用方法

使用HuggingFace Datasets库可直接加载该数据集，调用`load_dataset`函数并指定数据集名称及`split='train'`即可获取训练数据。由于数据集的模式与主缓冲区`NuminaMath-LEAN-satp-buffer`字节一致，行数据可直接附加到主缓冲区中使用。建议将本数据集与填充了引理信息的主缓冲区进行合并，以补全缺失的`context_lemmas`字段，从而获得完整的训练样本。使用者可参考主缓冲区的README文档获取详细的列含义及分类语义说明。

背景与挑战

背景概述

NuminaMath-LEAN-satp-buffer-pairs-Temp数据集由ChristianZ97等研究人员于近期创建，旨在推动定理证明领域中强化学习与偏好对齐研究的发展。该数据集基于Lean4交互式定理证明器，专注于从数学形式化过程中挖掘（定理，成功配置，失败配置）三元组，为训练基于偏好的排序模型（如DPO）提供了结构化数据。其核心研究问题在于如何利用对比性成功与失败的定理证明策略，提升自动化证明系统的鲁棒性和有效性。作为NuminaMath-LEAN-satp生态体系的一部分，该数据集通过提供细粒度的策略差异标注，为探索证明策略的局部优化与偏好学习奠定了数据基础，对形式化数学与人工智能辅助证明领域具有重要推动作用。

当前挑战

该数据集面临的挑战体现在多个层面。在领域问题层面，定理证明策略优化是一个高维组合搜索问题，成功与失败策略的微小差异（如单步动作变化）可能对证明结果产生决定性影响，数据集需精确捕捉这些局部差异以实现有效的偏好学习，同时对噪声和异常值敏感。在构建过程中，主要挑战包括从大规模、异构的证明执行日志中可靠解析并提取策略动作向量，处理不完整或缺失的元数据（如失败案例的配置标识符需通过目录结构反推），以及确保跨数据分片的模式兼容性和字节级一致性。此外，数据集当前不携带引理检索上下文，与下游组件的融合仍需进一步工程化协调。

常用场景

经典使用场景

在自动定理证明（ATP）与形式化数学验证的交叉领域中，NuminaMath-LEAN-satp-buffer-pairs-Temp数据集扮演着核心基准的角色。它被广泛用于训练和评估基于Lean4的神经符号定理证明系统，特别是那些依赖于Aesop策略自动化机制的智能体。研究者和工程师利用该数据集中精心挖掘的（定理，成功配置，失败配置）三元组，构建偏好学习框架，使模型能够区分有效与无效的策略组合。该数据集通过其独特的单差异（single-diff）结构，为对比学习提供了理想的训练样本，使得证明搜索过程能够从简单的策略调整中快速收敛到正确结论。

衍生相关工作

围绕NuminaMath-LEAN-satp-buffer-pairs-Temp，学术界涌现了一系列重要工作。最直接的相关工作是NuminaMath-LEAN-satp-buffer主数据集的发布，该数据集提供了完整的证明缓冲区信息，为偏好对的生成奠定了基础。基于此，研究者提出了混合偏好优化方法，结合单差异与多差异样本的优势。后续工作如ReProver系统利用该数据集训练了可证明路径的重放策略，提升了搜索效率。此外，该数据集的挖掘方法论——off-by-one策略差异提取——已被应用于其他形式化验证系统（如Isabelle），证明了其思想的普遍性。这些工作共同构建了一个从数据生成到模型优化的闭环生态。

数据集最近研究