NuminaMath-LEAN-satp-buffer-dspaug-Temp

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/ChristianZ97/NuminaMath-LEAN-satp-buffer-dspaug-Temp

下载链接

链接失效反馈

官方服务：

资源简介：

NuminaMath-LEAN-satp-buffer-dspaug-Temp 是一个临时数据集，用于 DSP+ 论文增强扫描的暂存缓冲区。该数据集旨在解决在定理证明中某些策略（如 simp、simp_all 等）零覆盖率的问题。数据集包含 6265 行数据，来自 3 个精选配置（B_dsp_purist、G_aesop_default_binary 和 A_dsp_full）以及多个 H_bound 变体。每条数据包含定理的唯一标识符（theorem_uuid）、配置标识符（config_uuid）、形式化陈述（formal_statement）、策略字符串（tactic_string）、奖励值（reward）、引理名称（lemma_names，当前为空）、引理分数（lemma_scores，当前为空）和目标状态（goal_state）。数据集来源于 NuminaMath-LEAN-satp 的前 5000 行，并使用 Lean4 v4.17.0-rc1 工具链进行验证。

NuminaMath-LEAN-satp-buffer-dspaug-Temp is a temporary dataset serving as a staging buffer for DSP+ paper augmentation scans. This dataset aims to address the issue of zero coverage for certain tactics (e.g., simp, simp_all) in theorem proving. The dataset contains 6265 lines of data from 3 curated configurations (B_dsp_purist, G_aesop_default_binary, and A_dsp_full) along with several H_bound variants. Each entry includes a unique theorem identifier (theorem_uuid), configuration identifier (config_uuid), formal statement (formal_statement), tactic string (tactic_string), reward value (reward), lemma names (lemma_names, currently empty), lemma scores (lemma_scores, currently empty), and goal state (goal_state). The dataset is derived from the first 5000 lines of NuminaMath-LEAN-satp and is verified using the Lean4 v4.17.0-rc1 toolchain.

创建时间：

2026-05-01

原始信息汇总

数据集概述：NuminaMath-LEAN-satp-buffer-dspaug-Temp

基本信息

许可证：Apache 2.0
任务类型：文本生成
语言：英语
标签：lean4, mathlib, theorem-proving, aesop, reinforcement-learning, replay-buffer
数据规模：少于 1,000 行（实际包含 6,265 行）
配置文件：仅包含 default 配置，训练数据位于 data/train-*

数据集背景与目的

该数据集是为 DSP+ 论文的增强扫描阶段 准备的暂存缓冲区（staging buffer）。其核心目的是弥补 NuminaMath-LEAN-satp-buffer 数据集中某些策略（tactic）的正面覆盖缺失问题。具体来说，在原始缓冲区的 40,965 条记录中，发现了 8 种不安全的策略（UNSAFE）的正面覆盖为零，包括 simp, simp_all, ring_nf, ring_nf at *, field_simp [*] at *, norm_num [*] at *, norm_cast at *, bound。同时，DSP+ 论文的标准 aesop 配置也未被表示。为了给 SATP-aesop-policy 的强化学习提供正面的回放素材，进行了多配置扫描。

数据构成与配置

数据集包含来自 3 个选定配置 的 6,265 行 数据，具体如下：

名称	配置 UUID	行数
`B_dsp_purist`	`7171253e25b1ce0d`	462
`G_aesop_default_binary`	`85fa10d1fa6f674a`	181
`A_dsp_full`	`1c13f6e5d5dc139a`	153
`H_bound_5k10k`	`c0ec8fe8e733e3fc`	775
`H_bound_10k15k`	`c0ec8fe8e733e3fc`	281
`H_bound_15k20k`	`c0ec8fe8e733e3fc`	223
`H_bound_20k25k`	`c0ec8fe8e733e3fc`	244
`H_bound_25k30k`	`c0ec8fe8e733e3fc`	285
`H_bound_30k35k`	`c0ec8fe8e733e3fc`	224
`H_bound_35k40k`	`c0ec8fe8e733e3fc`	250
`H_bound_40k45k`	`c0ec8fe8e733e3fc`	385
`H_bound_45k50k`	`c0ec8fe8e733e3fc`	378
`H_bound_50k55k`	`c0ec8fe8e733e3fc`	387
`H_bound_55k60k`	`c0ec8fe8e733e3fc`	372
`H_bound_60k65k`	`c0ec8fe8e733e3fc`	405
`H_bound_65k70k`	`c0ec8fe8e733e3fc`	420
`H_bound_70k75k`	`c0ec8fe8e733e3fc`	409
`H_bound_75k80k`	`c0ec8fe8e733e3fc`	431

注：bound 策略（第8个零覆盖策略）未被任何配置填补，仍留待未来迭代。

数据模式（Schema）

列名	类型	说明
`theorem_uuid`	字符串	`sha256(canonical(formal_statement))[:16]`，用于与 `NuminaMath-LEAN-satp.uuid` 连接
`config_uuid`	字符串	`sha256(canonical(tactic_string))[:16]`
`formal_statement`	字符串	包含 `import Mathlib

Aesop 配置说明

四种 aesop 配置的规则和设置如下：

B_dsp_purist (462行)：禁用 simp 和 unfold，使用 simp_all，包含 11 种以 90% 概率添加的不安全规则（如 linarith, nlinarith, omega, simp, simp_all 等）。
G_aesop_default_binary (181行)：启用 simp 和 unfold，包含 4 种安全规则（如 field_simp, norm_cast）和 11 种 90% 概率的不安全规则。
A_dsp_full (153行)：禁用 simp 和 unfold，包含 4 种安全规则和 11 种 90% 概率的不安全规则。
H_bound_* 系列 (共 5,878 行)：禁用 simp 和 unfold，在 B_dsp_purist 基础上额外添加了 (add unsafe 90% (by bound)) 规则，针对不同区间的定理测试。

数据来源与可靠性

源定理：来自 ChristianZ97/NuminaMath-LEAN-satp 数据集的前 5,000 行。
目标状态：直接复用源行的 goal_state，减少计算开销。
环境：使用 Lean 工具链 leanprover/lean4:v4.17.0-rc1。
认证：所有 tactic_string 经过字节级别的往返验证，配置 UUID 根据 expert_configs/CHECKED_UUIDS.txt 进行校验。

下游用途

该数据集为每个（定理, aesop 配置）对提供奖励标签（reward），可直接用于强化学习或策略训练。其名称中的 -Temp 表明这是一个临时版本，lemma_names 和 lemma_scores 将在后续合并步骤中通过检索填充。

搜集汇总

数据集介绍

构建方式

在形式化定理证明的强化学习范式中，奖励信号的稀疏性始终是制约智能体策略收敛的核心瓶颈。为缓解这一困境，NuminaMath-LEAN-satp-buffer-dspaug-Temp 数据集应运而生，旨在为评估基准 NuminaMath-LEAN-satp 中缺乏正向覆盖的 tactics 提供训练材料。该数据集的构建始于对 40,965 条源数据的模式审计，发现 17 个 UNSAFE 池策略中有 8 个存在零正向覆盖率现象，且 DSP+ 论文标准配置的 16 个 UNSAFE 规则亦未被代表性覆盖。为填补这些空白，研究者在 NuminaMath-LEAN-satp 的前 5,000 行数据上发起了一个包含 7 种配置的扫描实验，最终生成了 5,934 个唯一定理的闭包证明。经交叉配置覆盖率分析发现，A、C、D、E、F 四组配置的 Jaccard 相似度为 1.000（均为 153 个成功定理），故仅保留 A、B、G 及 H 系列共 15 个分片，共计 6,265 条正向奖励记录，每条记录均包含定理 UUID、配置 UUID、形式化陈述、策略字符串及通过 Lean 4.17.0 验证的奖励值为 +1.0 的正向证明。

特点

该数据集的核心特质在于其作为特定领域重放缓冲区的精准定位，为 SATP-aesop-policy 的强化学习训练提供了稀缺的正向演示材料。每条样本的 reward 全部为 +1.0，表明所有收录的证明均通过了形式化验证环境的认证，从而避免了噪声奖励对策略学习的干扰。数据集的模式设计极具工程考量：theorem_uuid 通过 SHA256 摘要与源数据集实现等值连接，而 config_uuid 则唯一标识了具体的 Aesop 策略配置。值得注意的是，该数据集属于 -Temp 变体，其 lemma_names 与 lemma_scores 字段暂时留空，计划在后续晋升至规范版本时通过检索增强方式填充，此举体现了增量式数据构建的灵活性。此外，扫描覆盖了从 5,000 至 80,000 行的连续分片，每个分片对应独立的定理子集，便于研究者按需抽取特定区间的训练或评估样本。

使用方法

在面向强化学习的使用场景中，NuminaMath-LEAN-satp-buffer-dspaug-Temp 可直接作为经验回放缓冲区的原始数据源，为 SATP-aesop-policy 等基于 Aesop 策略的定理证明智能体提供正向经验轨迹。使用时需注意通过 theorem_uuid 与 NuminaMath-LEAN-satp 数据集进行关联，以获取完整的定理元信息（如 goal_state 字段）。数据集的自定义拆分设计允许用户直接通过 Hugging Face Datasets 库的 load_dataset 函数加载，指定 split='train' 后即可获取全部 6,265 条样本。每条样本的 tactic_string 字段记录了经过规范化处理的 Aesop 策略块，可直接用于指导智能体的动作选择。但需注意，作为过渡性质的 -Temp 变体，该版本暂不包含 lemma 级别的细粒度标注，适合用于端到端的策略预训练阶段，后续可通过官方提供的合并脚本填充 lemma 相关信息以用于更细粒度的行为克隆或离线策略评估任务。

背景与挑战

背景概述

NuminaMath-LEAN-satp-buffer-dspaug-Temp数据集诞生于2026年，由ChristianZ97等研究人员依托AI-MO/NuminaMath-LEAN项目构建，旨在推动神经网络驱动的定理证明器在Lean4形式化环境中的发展。该数据集聚焦于强化学习策略中Aesop自动定理证明器的动作空间覆盖问题，通过多配置扫描为正反馈回放缓冲池提供高质量证明样本。其核心研究问题在于如何通过数据增强弥补现有策略对关键战术（如simp、ring_nf等）的零覆盖缺陷，从而提升SATP-aesop-policy模型的决策锚定能力。该数据集对形式化数学的自动化证明领域具有重要影响力，为大规模强化学习训练提供了可靠的奖励标签来源。

当前挑战

该数据集面临的主要挑战包括：领域层面，自动化定理证明中Aesop策略的动作空间存在严重稀疏性，17种非安全战术中有8种在40965个样本的原始缓冲池中零覆盖，导致强化学习模型无法在相应维度上获得有效梯度信号；构建过程中，7配置扫描仅覆盖了5K源定理，闭合率仅7.42%，且发现配置A、C、D、E、F产生完全相同的153个成功集，表明存在冗余配置与探索效率低下的问题；bound战术在所有扫描配置中均未能被填充，形成了持久的行动空间盲区。这些挑战反映了从头生成多样化、高质量证明数据的高昂成本与策略泛化能力的脆弱性。

常用场景

经典使用场景

在人工智能辅助定理证明领域，NuminaMath-LEAN-satp-buffer-dspaug-Temp数据集扮演着关键角色，其核心价值在于为基于深度学习的定理证明智能体提供高质量的训练轨迹。该数据集专注于Lean4证明助手与Aesop自动化策略的结合，通过精心设计的多配置扫描（A至H共七种策略配置），生成了超过六千条经过认证的正向证明路径。这些路径覆盖了从基础代数操作（如field_simp、ring_nf）到高级推理（如linarith、omega）的广泛策略空间，为强化学习驱动的证明策略优化提供了必不可少的行为克隆素材。数据集特别关注了DSP+论文规范配置中的动作维度覆盖问题，填补了多个策略在原始池中零正向覆盖的空白，使得研究者和工程师能够训练出更全面、更鲁棒的自动化定理证明模型。

实际应用

在实际应用中，该数据集主要服务于两大场景：一是作为离线强化学习的回放缓冲区，为训练定理证明智能体提供稳定的训练信号；二是作为Aesop策略配置的基准评估集，帮助开发者诊断和优化证明策略的组合效果。在AI-MO竞赛和Lean4社区的实践中，该数据集可以加速从问题陈述到形式化证明的自动化流程，降低数学研究者使用证明助手进行验证的门槛。此外，数据集的模块化设计使其能够便捷地集成到DSP+等论文的认证工作流中，为后续的策略探索和模型部署提供可复现的实验基础。

衍生相关工作

该数据集直接衍生于NuminaMath-LEAN项目中的定理过滤和策略扩展工作流，是ChristianZ社区在SATP（Structured Automated Theorem Proving）框架下的阶段性产出。相关工作包括DSP+论文中提出的基于论文增强的策略扫描方法，以及SATP-Aesop策略配置的审计与优化。数据集的设计理念与已有的NuminaMath-LEAN-satp-buffer-planf-v1-Temp数据集一脉相承，共同构建了从原始形式化语句到可训练证明轨迹的完整流水线。更为重要的是，该数据集为后续的bound策略注入、多配置集成学习以及证明轨迹的元学习研究提供了丰富的训练素材，有望催生更高效、更泛化的下一代定理证明智能体。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集