NuminaMath-LEAN-satp-buffer-dspaug-Temp
收藏数据集概述:NuminaMath-LEAN-satp-buffer-dspaug-Temp
基本信息
- 许可证:Apache 2.0
- 任务类型:文本生成
- 语言:英语
- 标签:lean4, mathlib, theorem-proving, aesop, reinforcement-learning, replay-buffer
- 数据规模:少于 1,000 行(实际包含 6,265 行)
- 配置文件:仅包含
default配置,训练数据位于data/train-*
数据集背景与目的
该数据集是为 DSP+ 论文的增强扫描阶段 准备的暂存缓冲区(staging buffer)。其核心目的是弥补 NuminaMath-LEAN-satp-buffer 数据集中某些策略(tactic)的正面覆盖缺失问题。具体来说,在原始缓冲区的 40,965 条记录中,发现了 8 种不安全的策略(UNSAFE)的正面覆盖为零,包括 simp, simp_all, ring_nf, ring_nf at *, field_simp [*] at *, norm_num [*] at *, norm_cast at *, bound。同时,DSP+ 论文的标准 aesop 配置也未被表示。为了给 SATP-aesop-policy 的强化学习提供正面的回放素材,进行了多配置扫描。
数据构成与配置
数据集包含来自 3 个选定配置 的 6,265 行 数据,具体如下:
| 名称 | 配置 UUID | 行数 |
|---|---|---|
B_dsp_purist |
7171253e25b1ce0d |
462 |
G_aesop_default_binary |
85fa10d1fa6f674a |
181 |
A_dsp_full |
1c13f6e5d5dc139a |
153 |
H_bound_5k10k |
c0ec8fe8e733e3fc |
775 |
H_bound_10k15k |
c0ec8fe8e733e3fc |
281 |
H_bound_15k20k |
c0ec8fe8e733e3fc |
223 |
H_bound_20k25k |
c0ec8fe8e733e3fc |
244 |
H_bound_25k30k |
c0ec8fe8e733e3fc |
285 |
H_bound_30k35k |
c0ec8fe8e733e3fc |
224 |
H_bound_35k40k |
c0ec8fe8e733e3fc |
250 |
H_bound_40k45k |
c0ec8fe8e733e3fc |
385 |
H_bound_45k50k |
c0ec8fe8e733e3fc |
378 |
H_bound_50k55k |
c0ec8fe8e733e3fc |
387 |
H_bound_55k60k |
c0ec8fe8e733e3fc |
372 |
H_bound_60k65k |
c0ec8fe8e733e3fc |
405 |
H_bound_65k70k |
c0ec8fe8e733e3fc |
420 |
H_bound_70k75k |
c0ec8fe8e733e3fc |
409 |
H_bound_75k80k |
c0ec8fe8e733e3fc |
431 |
- 注:
bound策略(第8个零覆盖策略)未被任何配置填补,仍留待未来迭代。
数据模式(Schema)
| 列名 | 类型 | 说明 |
|---|---|---|
theorem_uuid |
字符串 | sha256(canonical(formal_statement))[:16],用于与 NuminaMath-LEAN-satp.uuid 连接 |
config_uuid |
字符串 | sha256(canonical(tactic_string))[:16] |
formal_statement |
字符串 | 包含 `import Mathlib |
+ 定理声明,以:= by结尾 | |tactic_string| 字符串 | 四种不同 aesop 配置块的逐字文本 | |reward| 浮点数(float64) | 固定为+1.0(失败的已丢弃) | | lemma_names| 字符串列表 | 在此 **-Temp** 版本中为空 | |lemma_scores| 浮点数列表 | 在此 **-Temp** 版本中为空 | |goal_state| 字符串 | 经过格式化的 Lean 目标状态,字节级别与NuminaMath-LEAN-satp.goal_state` 相等 |
Aesop 配置说明
四种 aesop 配置的规则和设置如下:
B_dsp_purist(462行):禁用simp和unfold,使用simp_all,包含 11 种以 90% 概率添加的不安全规则(如linarith,nlinarith,omega,simp,simp_all等)。G_aesop_default_binary(181行):启用simp和unfold,包含 4 种安全规则(如field_simp,norm_cast)和 11 种 90% 概率的不安全规则。A_dsp_full(153行):禁用simp和unfold,包含 4 种安全规则和 11 种 90% 概率的不安全规则。H_bound_*系列 (共 5,878 行):禁用simp和unfold,在B_dsp_purist基础上额外添加了(add unsafe 90% (by bound))规则,针对不同区间的定理测试。
数据来源与可靠性
- 源定理:来自
ChristianZ97/NuminaMath-LEAN-satp数据集的前 5,000 行。 - 目标状态:直接复用源行的
goal_state,减少计算开销。 - 环境:使用 Lean 工具链
leanprover/lean4:v4.17.0-rc1。 - 认证:所有
tactic_string经过字节级别的往返验证,配置 UUID 根据expert_configs/CHECKED_UUIDS.txt进行校验。
下游用途
该数据集为每个(定理, aesop 配置)对提供奖励标签(reward),可直接用于强化学习或策略训练。其名称中的 -Temp 表明这是一个临时版本,lemma_names 和 lemma_scores 将在后续合并步骤中通过检索填充。




