five

NuminaMath-LEAN-satp-buffer-pairs-Temp

收藏
Hugging Face2026-05-05 更新2026-05-06 收录
下载链接:
https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp
下载链接
链接失效反馈
官方服务:
资源简介:
NuminaMath-LEAN-satp-buffer-pairs-Temp数据集是一个临时快照,包含从特定运行中挖掘的(定理、成功配置、失败配置)三元组。该数据集专注于Lean4中的定理证明,使用Aesop工具。数据集包含13,116个单差异行,无多差异行。数据模式与主数据集NuminaMath-LEAN-satp-buffer完全一致,但缺少检索上下文(context_lemmas和context_lemma_scores为空)。数据集中的diff_head值分布反映了Aesop-action向量中的位置差异。数据来源于特定目录的JSONL文件,并使用Lean4和Mathlib的特定版本进行处理。数据集适用于定理证明和相关机器学习任务的研究。

The NuminaMath-LEAN-satp-buffer-pairs-Temp dataset is a temporary snapshot containing (theorem, successful configuration, failed configuration) triples mined from a specific run. The dataset focuses on theorem proving in Lean4 using the Aesop tool. It contains 13,116 single-diff (DPO-eligible) lines and no multi-diff lines. The data schema is identical to the main dataset NuminaMath-LEAN-satp-buffer, but lacks retrieval contexts (context_lemmas and context_lemma_scores are empty). The distribution of diff_head values in the dataset reflects positional differences in the Aesop-action vector. The data originates from JSONL files in a specific directory and is processed using specific versions of Lean4 and Mathlib. The dataset is suitable for research in theorem proving and related machine learning tasks.
创建时间:
2026-05-04
原始信息汇总

数据集概述

数据集名称: NuminaMath-LEAN-satp-buffer-pairs-Temp
数据集地址: https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp

基本信息

  • 许可证: Apache-2.0
  • 语言: 英语
  • 标签: 定理证明 (theorem-proving), Lean4, Aesop, replay-buffer, preference-pairs
  • 数据集规模: 10K < n < 100K
  • 配置: 仅包含 default 配置,训练集 (train) 文件路径为 data/train-*

数据内容

  • 总行数: 13,116 对 (pair rows),全部为单差分 (single-diff, DPO-eligible),多差分 (multi-diff) 数量为 0
  • 数据格式: 与主数据集 NuminaMath-LEAN-satp-buffer 字节一致,可直接追加行记录
  • 关键字段: context_lemmascontext_lemma_scores 均为空(本数据集未携带检索信息),建议通过下游合并工具从 NuminaMath-LEAN-satp-buffer 中按 uuid_goal 填充

数据来源

  • 挖掘脚本: workspace/scripts/mine_offbyone_pairs.py,解析每个 tactic_string 并计算 40 维整数向量间的位置差分
  • 源目录: workspace/result/expert_dspaug_*/ 中同时包含 successes_shard_*.jsonlfailures_shard_*.jsonl 的运行结果
  • 工具链: 与主缓冲区一致,基于 leanprover/lean4:v4.17.0-rc1 及配套 Mathlib 版本

diff_head 分布 (仅单差分)

diff_head (位置索引) 数量
0 34
1 1
2 29
3 741
4 166
5 769
6 268
7 18
10 22
12 1596
13 1955
14 7
15 839
16 923
17 649
18 172
19 578
20 429
21 1014
22 175
23 2731
null (多差分) 0

如何加载

使用 datasets 库加载: python from datasets import load_dataset ds = load_dataset("ChristianZ97/NuminaMath-LEAN-satp-buffer-pairs-Temp", split="train") print(ds)

搜集汇总
数据集介绍
main_image_url
构建方式
NuminaMath-LEAN-satp-buffer-pairs-Temp数据集源自对NuminaMath-LEAN-satp训练集进行的局部`expert_dspaug_*`运行结果,通过脚本`mine_offbyone_pairs.py`解析每条策略字符串,将其转换为40维aesop动作向量后计算位置差异,从而提取出恰好存在单一差异的(定理,成功配置,失败配置)三元组。失败的配置通过父目录名称及`expert_configs`中的文件恢复缺失的字段。整个构建过程与主缓冲区使用相同的Lean 4工具链及数学库版本,确保了数据格式的完全兼容性。
特点
该数据集包含13,116条单一差异行,所有行均适用于直接偏好优化(DPO),且不包含多差异行。每条记录中的`diff_head`字段指示了40维aesop动作向量中产生差异的位置索引,覆盖了从索引0到23的多个位置,其中索引23最为高频。此外,数据集中`context_lemmas`及`context_lemma_scores`字段均为空,便于与下游合并器配合使用,从相同的`uuid_goal`中填充引理信息,增强了数据的灵活性和可扩展性。
使用方法
使用HuggingFace Datasets库可直接加载该数据集,调用`load_dataset`函数并指定数据集名称及`split='train'`即可获取训练数据。由于数据集的模式与主缓冲区`NuminaMath-LEAN-satp-buffer`字节一致,行数据可直接附加到主缓冲区中使用。建议将本数据集与填充了引理信息的主缓冲区进行合并,以补全缺失的`context_lemmas`字段,从而获得完整的训练样本。使用者可参考主缓冲区的README文档获取详细的列含义及分类语义说明。
背景与挑战
背景概述
NuminaMath-LEAN-satp-buffer-pairs-Temp数据集由ChristianZ97等研究人员于近期创建,旨在推动定理证明领域中强化学习与偏好对齐研究的发展。该数据集基于Lean4交互式定理证明器,专注于从数学形式化过程中挖掘(定理,成功配置,失败配置)三元组,为训练基于偏好的排序模型(如DPO)提供了结构化数据。其核心研究问题在于如何利用对比性成功与失败的定理证明策略,提升自动化证明系统的鲁棒性和有效性。作为NuminaMath-LEAN-satp生态体系的一部分,该数据集通过提供细粒度的策略差异标注,为探索证明策略的局部优化与偏好学习奠定了数据基础,对形式化数学与人工智能辅助证明领域具有重要推动作用。
当前挑战
该数据集面临的挑战体现在多个层面。在领域问题层面,定理证明策略优化是一个高维组合搜索问题,成功与失败策略的微小差异(如单步动作变化)可能对证明结果产生决定性影响,数据集需精确捕捉这些局部差异以实现有效的偏好学习,同时对噪声和异常值敏感。在构建过程中,主要挑战包括从大规模、异构的证明执行日志中可靠解析并提取策略动作向量,处理不完整或缺失的元数据(如失败案例的配置标识符需通过目录结构反推),以及确保跨数据分片的模式兼容性和字节级一致性。此外,数据集当前不携带引理检索上下文,与下游组件的融合仍需进一步工程化协调。
常用场景
经典使用场景
在自动定理证明(ATP)与形式化数学验证的交叉领域中,NuminaMath-LEAN-satp-buffer-pairs-Temp数据集扮演着核心基准的角色。它被广泛用于训练和评估基于Lean4的神经符号定理证明系统,特别是那些依赖于Aesop策略自动化机制的智能体。研究者和工程师利用该数据集中精心挖掘的(定理,成功配置,失败配置)三元组,构建偏好学习框架,使模型能够区分有效与无效的策略组合。该数据集通过其独特的单差异(single-diff)结构,为对比学习提供了理想的训练样本,使得证明搜索过程能够从简单的策略调整中快速收敛到正确结论。
衍生相关工作
围绕NuminaMath-LEAN-satp-buffer-pairs-Temp,学术界涌现了一系列重要工作。最直接的相关工作是NuminaMath-LEAN-satp-buffer主数据集的发布,该数据集提供了完整的证明缓冲区信息,为偏好对的生成奠定了基础。基于此,研究者提出了混合偏好优化方法,结合单差异与多差异样本的优势。后续工作如ReProver系统利用该数据集训练了可证明路径的重放策略,提升了搜索效率。此外,该数据集的挖掘方法论——off-by-one策略差异提取——已被应用于其他形式化验证系统(如Isabelle),证明了其思想的普遍性。这些工作共同构建了一个从数据生成到模型优化的闭环生态。
数据集最近研究
最新研究方向
该数据集聚焦于利用人工智能辅助的定理证明领域,特别是基于Lean4形式化证明系统的偏好对(preference pairs)挖掘。通过从NuminaMath-LEAN-satp训练数据中提取定理及其成功与失败的配置对,数据集为DPO(Direct Preference Optimization)等偏好学习算法提供了关键训练素材。这一方向与当前AI for Math的热点事件紧密相连,尤其是在自动定理证明和大规模数学形式化验证的交叉前沿。数据集的构建采用离线对比挖掘方法,通过计算aesop策略向量的位置差异生成单差异对,为后续的奖励建模和策略优化提供了细粒度的监督信号。其意义在于推动机器学习模型在形式化数学推理中的性能突破,加速数学定理的自动化验证进程,并对AI辅助数学研究这一新兴领域产生深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作