ChristianZ97/NuminaMath-LEAN-satp-buffer-dspaug-Temp

Name: ChristianZ97/NuminaMath-LEAN-satp-buffer-dspaug-Temp
Creator: ChristianZ97
Published: 2026-05-02 16:43:40
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-dspaug-Temp

下载链接

链接失效反馈

官方服务：

资源简介：

README内容描述了一个名为NuminaMath-LEAN-satp-buffer-dspaug-Temp的数据集，这是一个用于论文增强扫描的暂存缓冲区。它是一个临时变体，具有空的lemma_names和lemma_scores，并且以theorem_uuid作为连接键。数据集包含来自3个选定配置（B_dsp_purist、G_aesop_default_binary、A_dsp_full）和其他配置的12137行数据，这些配置是7个配置扫描的一部分，用于为NuminaMath-LEAN-satp数据集中的空白生成发射空间认证的正面证明。数据集模式包括列如theorem_uuid、config_uuid、formal_statement、tactic_string、reward、lemma_names、lemma_scores和goal_state。README还提供了有关数据集中使用的Aesop配置的详细信息。

The README content describes a dataset named NuminaMath-LEAN-satp-buffer-dspaug-Temp, which is a staging buffer for a paper-augmentation sweep. It is a temporary variant with empty lemma_names and lemma_scores, and theorem_uuid as the join key. The dataset contains 12137 rows from 3 selected configs (B_dsp_purist, G_aesop_default_binary, A_dsp_full) and others, which were part of a 7-config sweep to generate emission-space-certified positive proofs for gaps in the NuminaMath-LEAN-satp dataset. The dataset schema includes columns like theorem_uuid, config_uuid, formal_statement, tactic_string, reward, lemma_names, lemma_scores, and goal_state. The README also provides detailed information about the Aesop configs used in the dataset.

提供机构：

ChristianZ97

搜集汇总

数据集介绍

构建方式

在定理证明的广阔疆域中，NuminaMath-LEAN-satp-buffer-dspaug-Temp数据集应运而生，旨在弥合现有策略覆盖的鸿沟。该数据集源于对NuminaMath-LEAN-satp缓冲区的细致审计，发现多个非安全策略（如simp、ring_nf）在强化学习中缺乏正向示例。为此，研究人员设计了一场七配置的扫描实验，针对前5000条定理，旨在生成填补这些空白的正向证明。最终，剔除了产生相同成功集（Jaccard系数为1.000）的冗余配置（C、D、E、F），数据集汇聚了三个精选配置（B_dsp_purist、G_aesop_default_binary、A_dsp_full）以及其他针对性配置（如H_bound系列、I_no_rules_dsp_defaults等）的12137行数据，每一行均包含定理的正式陈述、策略字符串及对应的奖励信号。

特点

该数据集的特色在于其精心设计的架构与明确的强化学习导向。每条记录涵盖theorem_uuid、config_uuid、formal_statement、tactic_string、reward、lemma_names、lemma_scores及goal_state八个字段，其中lemma_names与lemma_scores在当前-Temp版本中留空，为后续的检索与重命名步骤预留了空间。配置的多样性是其另一核心亮点，从B_dsp_purist的纯策略模式到G_aesop_default_binary的默认二元配置，再到H_bound系列中引入的bound策略，覆盖了广泛的证明策略组合。值得注意的是，bound策略虽在扫描中未被填充，但其存在为未来的迭代指明了方向，体现了数据集设计的前瞻性与持续演进的潜力。

使用方法

对于研究人员而言，该数据集可作为强化学习训练中重放缓冲区的直接素材。使用方式颇为灵活：形式上，可通过theorem_uuid字段将数据集与NuminaMath-LEAN-satp母集进行连接，以获取更完整的上下文信息。在实践中，研究者可加载Hugging Face上的数据文件（如data/train-*），利用formal_statement与tactic_string构建训练样本，以reward作为学习信号。数据集的-Temp特性意味着在正式使用前，需执行从检索到重命名的规范化步骤，将lemma_names与lemma_scores填充至一致性状态。通过直接使用或与官方模拟环境结合，该数据集能有效支持定理证明中策略学习算法的研究与开发。

背景与挑战

背景概述

在形式化定理证明领域，自动推理工具的效能高度依赖于高质量的重放缓冲区（replay buffer）以训练强化学习策略。NuminaMath-LEAN-satp-buffer-dspaug-Temp数据集由NuminaMath项目团队于2026年创建，核心研究问题聚焦于如何通过数据增强填补Aesop自动证明器在Lean4环境中策略覆盖的空白。该数据集针对SATP-aesop-policy的BC项中因缺乏正向回放素材而无法锚定的动作维度，通过多配置扫描生成排放空间认证的正向证明，其87.54%的定理覆盖率虽仅为初步结果，但为强化学习驱动的自动定理证明提供了关键训练数据，对推动形式化数学推理的自动化水平具有里程碑意义。

当前挑战

该数据集面临的领域挑战在于自动定理证明器（如Aesop）的策略组合存在显著的覆盖盲区，在NuminaMath-LEAN-satp-buffer的40,965条记录中，17个UNSAFE池策略中有8个（包括simp、ring_nf等）为零正向覆盖，导致强化学习策略无法在这些动作维度上有效施训。构建过程中遭遇的挑战包括：多配置扫描（7种）产生的证明结果高度冗余，其中4种配置产生完全相同的153个定理成功集；同时，bound策略在所有配置中均未被填补，形成持久性空白；此外，数据总量仅覆盖80,000个定理中的5,971个（7.46%），稀疏性对后续策略泛化构成严峻考验。

常用场景

经典使用场景

在自动化定理证明与形式化数学验证领域，NuminaMath-LEAN-satp-buffer-dspaug-Temp数据集被设计为强化学习策略的训练回放缓冲区，其核心用途是填补现有数学证明工具链中特定战术（tactic）的覆盖空白。该数据集针对Lean4证明助手中的aesop自动证明器进行定制，通过多配置扫描生成了超过12,000条经认证的正面证明样本，尤其聚焦于`simp`、`simp_all`、`ring_nf`、`field_simp`等原本覆盖率极低的关键战术。这些高质量的正反馈样本为训练面向定理证明的强化学习策略——如SATP-aesop-policy——提供了不可或缺的‘锚定’素材，使得智能体能够在离散动作空间中可靠地执行以往难以习得的战术组合。

衍生相关工作

该数据集的出现催生了一系列深入的后续研究。其前置作品`NuminaMath-LEAN-satp-buffer-planf-v1-Temp`为数据集的结构设计奠定了基础，确立了通过`theorem_uuid`进行跨集关联的范式。进一步地，本数据集在模式审计中发现的战术覆盖空白，直接推动了DSP+论文中提出的16种非安全战术加4种安全规则的aesop配置方案，成为强化学习策略`SATP-aesop-policy`的重要组成部分。其多配置扫描（A..G）及其覆盖率分析（如发现A=C=D=E=F配置产生完全相同的153个定理闭合集合）也为证明策略的冗余性研究提供了实证素材。此外，数据集中未能填补的`bound`战术空白，已经指明了未来迭代的方向，预计将激发更多针对该特定战术的专项数据生成工作。

数据集最近研究