First Proof Benchmark
收藏github2026-03-26 更新2026-03-28 收录
下载链接:
https://github.com/Zetetic-Dhruv/First-Proof-Benchmark-Results
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于数学证明合成的过程级数据集,包含了85个经过审计的证明步骤、6条被拒绝的路由以及跨问题模式,用于评估AI证明发现的成功或失败情况。数据集还提供了闭环测量框架,可用于未来的AI证明发现评估。
This is a process-level dataset for mathematical proof synthesis, which includes 85 audited proof steps, 6 rejected proof routes, and cross-problem patterns. It is designed to evaluate the successes and failures of AI-driven proof discovery. Additionally, the dataset provides a closed-loop measurement framework for future evaluations of AI proof discovery.
创建时间:
2026-03-26
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Empirical Analysis of Synthetic Discovery of Math Proofs
- 数据集地址: https://github.com/Zetetic-Dhruv/First-Proof-Benchmark-Results
- DOI: https://doi.org/10.5281/zenodo.18629234
- 许可证: Apache 2.0
- 创建背景: 在哈佛“First Proof”基准测试上进行的自主证明发现试点研究,数据集在官方解决方案发布前已存档。
数据集内容与规模
- 问题数量: 10
- 已接受证明数量: 4
- 已审计步骤数量: 85
- 拒绝路径数量: 6(4条由模型自行拒绝,2条在审计中发现)
- 推理有效性: 98%
核心发现
- 主要实证信号: 局部正确性与鲁棒迁移性之间存在差距。推理有效性为98%,泛化鲁棒性为69%。这29个百分点的下降是核心发现。
- 数据集性质: 这是一个过程级数据集,而非最终答案基准。它保留了完整的证明搜索结构,包括接受的步骤、拒绝的路径、延迟的机制和明确的开放桥梁。负面证据(路径消除、反例、死胡同记录)被视为一等输出。
审计流程与实验设置
- 模型: GPT-5.2
- 基础设施: 消费者API(GPT-5.2)
- 计算成本: 约32美元
- 运行时间: 8小时,无人值守
- 人工干预: 运行期间无
- 审计方式: 运行后由作者团队和LLM委员会(Claude Opus 4.6, GPT-5.4 Pro, Gemini 3 Pro)独立进行审计。
尝试的问题与结果
尝试了涵盖十个不同数学领域的十个问题。
| 问题编号 | 问题描述 | 领域 | 结果 |
|---|---|---|---|
| 1 | $Phi^4_3$ 测度在平滑平移下的奇异性 | 量子场论 | 🟡 部分完成 |
| 2 | $mathrm{GL}_{n+1} imes mathrm{GL}_n$ 上Rankin-Selberg积分的局部测试向量 | 自守形式 | 🔴 被拒绝 |
| 3 | 在 $q = 1$ 时具有插值ASEP/Macdonald平稳权重的马尔可夫链 | 概率与代数组合学 | 🟡 部分完成 |
| 4 | $Phi_n(p oxplus_n q)$ 的有限自由Stam不等式 | 自由概率 | 🟡 部分完成 |
| 5 | $mathcal{O}$-切片连通性与几何不动点 | 等变同伦论 | 🔴 被拒绝 |
| 6 | $varepsilon$-轻顶点集的Schur补证书 | 谱图论与算法 | 🟢 已接受 |
| 7 | 带对合的格点$mathbb{Q}$-零调通用覆盖的障碍 | 拓扑与几何群论 | 🟡 部分完成 |
| 8 | $mathbb{R}^4$中的四价多面体拉格朗日曲面未必允许光滑化 | 辛拓扑 | 🟢 已接受 |
| 9 | 行列式块张量秩一缩放的证书多项式 | 代数几何与张量方法 | 🟢 已接受 |
| 10 | 具有Kronecker结构的模式-$k$ RKHS子问题的无矩阵PCG | 数值线性代数与核方法 | 🟢 已接受 |
结果总结: 4个定理级证明被接受,4个证明取得结构性进展(部分完成),2个被拒绝。
步骤级指标
85个候选证明步骤根据四个二元门进行审计。每个步骤在每个门上要么通过(1),要么失败(0)。
| 指标 | 通过率 | 分数 | 备注 |
|---|---|---|---|
| 假设合规性 | 100% | 85/85 | 每个步骤都保持在所述假设内 |
| 推理有效性 | 98% | 83/85 | 仅2个步骤包含数学错误 |
| 目标完成度 | 76% | 65/85 | 大多数步骤在方向上有用;有些步骤未完全闭合 |
| 泛化鲁棒性 | 69% | 59/85 | 主要瓶颈:局部有效但无法迁移的步骤 |
这四个比率形成了一个单调漏斗。从推理有效性到泛化鲁棒性下降29个百分点是核心实证发现。
判定分布
每个步骤获得一个判定。分布如下:
| 判定 | 数量 | 占比 | 含义 |
|---|---|---|---|
| 已接受 | 65 | 76% | 在声称范围内有效且目标完成 |
| 被拒绝 | 6 | 7% | 被反例或无效推理排除 |
| 部分完成 | 6 | 7% | 有希望,但存在未解决的子目标或缺失前提 |
| 延迟 | 6 | 7% | 合理但发展不充分,无法判断 |
| 开放 | 2 | 2% | 明确的未解决桥梁陈述或猜想 |
方法背景
- 基准测试: “First Proof”基准测试由11位数学家创建,问题于2026年2月5日发布,解决方案在2月13日前加密。每个问题都是作者自己未发表工作中真正的研究引理。
- 核心方法: 采用结构化发现状态跟踪。协议包括三个部分:
- 四门测量:每个候选证明步骤在假设合规性、推理有效性、目标完成度和泛化鲁棒性上进行评分。
- 结构化无知日志:系统明确记录模型知道自己不知道什么。
- 无知收窄:系统跟踪证明搜索过程中无知结构的变化。
提交结果对比
| 维度 | 本工作 | OpenAI | Aletheia (Google) | 基准测试作者 |
|---|---|---|---|---|
| 模型 | GPT-5.2 (消费者API) | 内部(未发布) | Gemini 3 Deep Think | ChatGPT 5.2 Pro + Gemini 3.0 DT |
| 重点 | 发现框架 | 证明生成 | 自主证明代理 | 基线测试 |
| 人工监督 | 无 | 有限(半自主) | 无(完全自主) | N/A(测试) |
| 计算成本 | ~$32 | 未披露 | 未披露 | 未披露 |
| 解决的问题 | 4/10 | 5/10 | 6/10 | 2/10 |
| 发布过程数据 | 是(85个审计步骤) | 仅证明 | 仅证明 | N/A |
| 保留负面证据 | 是(6条拒绝路径) | 否 | 部分(4个“无解”) | 否 |
问题间分析
- 所有尝试系统都解决的问题(P9,P10):这些是最容易处理的问题。
- P6:本工作和OpenAI解决,Aletheia未解决。
搜集汇总
数据集介绍

构建方式
在数学定理自动证明的前沿探索中,First Proof Benchmark数据集通过结构化发现协议构建而成。该协议以哈佛大学发布的十个未公开研究引理为起点,利用GPT-5.2模型在八小时内进行完全自主的证明搜索。整个过程遵循严格的四门审计流程,对生成的八十五个候选证明步骤逐一评估其假设合规性、推理有效性、目标完成度与泛化鲁棒性。搜索过程同步记录知识边界演化轨迹,将模型自我否决的六条证明路径作为负样本完整保留,最终形成包含步骤级质量指标与人类审核注释的过程级数据集。
使用方法
研究者可利用该数据集进行多维度分析,其结构化输出支持从微观步骤审计到宏观模式发现的跨层次研究。步骤级审计数据允许量化评估不同数学领域内推理链的稳健性,而跨问题模式分析则能揭示证明搜索中的系统性弱点。数据集配套的封闭循环测量框架可直接复用于未来人工智能证明发现系统的评估,通过对比四门通过率的变化追踪模型能力的演进。对于具体数学问题的后续研究,数据集中记录的精确知识缺口——如问题一中未证明的负矩边界——能为新的证明尝试提供定向起点,避免重复探索已否决的路径。
背景与挑战
背景概述
First Proof Benchmark 由哈佛大学等机构的11位杰出数学家于2026年2月5日联合创建,其中包括菲尔兹奖得主与麦克阿瑟天才奖获得者,旨在评估人工智能在真实数学研究问题上的证明发现能力。该数据集并非传统的结果导向基准,而是聚焦于过程层面的追踪,完整记录了证明搜索中的步骤接受、路径拒绝与未解桥梁等结构化信息。其核心研究问题在于探索人工智能能否自主完成从模糊猜测到精确推理的数学发现过程,为自动化定理证明领域提供了首个以研究级数学问题为背景的评估框架,推动了合成发现理论与结构化探究方法的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,其旨在解决自动化定理证明中从局部正确性到泛化鲁棒性的过渡难题,例如推理有效性虽达98%,但泛化鲁棒性仅69%,揭示了人工智能在将局部有效论证扩展至完整目标时存在的系统性脆弱性。在构建过程中,挑战包括如何设计可审计的四门测量框架以标准化发现状态,以及如何将负面证据如路径淘汰与反例纳入一等输出,从而在完全无人干预的条件下实现证明搜索过程的结构化记录与可重复评估。
常用场景
经典使用场景
在数学定理自动证明领域,First Proof Benchmark数据集为评估人工智能系统的证明发现能力提供了标准化的实验平台。该数据集收录了涵盖量子场论、自守形式、概率组合学等十个数学分支的未发表研究引理,模拟了真实数学研究中的问题分布。其经典使用场景在于引导AI模型进行端到端的证明搜索,通过结构化发现协议记录每一步的推理状态,从而系统性地分析模型在复杂数学问题上的泛化鲁棒性与局部有效性之间的差距。
解决学术问题
该数据集核心解决了自动推理系统中“局部正确性”与“全局泛化”脱节的学术难题。通过引入四重评估门控(假设合规性、推理有效性、目标完成度、泛化鲁棒性),首次量化了证明步骤从特殊案例到一般情形的迁移损耗。其提供的85个审计步骤与6条被拒证明路径,为理解AI证明搜索的失败模式提供了可证伪的假设,推动了形式化推理中“结构化无知”理论框架的发展,填补了过程级评估数据的空白。
实际应用
在实际应用中,该数据集为构建下一代自动证明辅助系统提供了训练与评估基准。其记录的证明搜索轨迹可优化数学知识表示,帮助系统识别推理链中的脆弱环节。教育领域可借助其结构化错误分析设计智能辅导工具,提升学生处理复杂数学问题的能力。研究机构则能利用其跨问题模式,开发更可靠的定理证明器,加速数学前沿问题的探索进程。
数据集最近研究
最新研究方向
在数学定理自动证明领域,First Proof Benchmark作为首个由顶尖数学家构建的研究级问题集合,正推动前沿研究聚焦于结构化发现框架的构建与评估。当前研究热点在于利用大语言模型进行自主证明搜索时,如何系统化追踪推理过程、量化未知边界,并生成可审计的负向证据。这一方向深刻揭示了模型在局部推理有效性与泛化鲁棒性之间的显著差距,为理解AI在复杂数学问题中的认知边界提供了实证基础,对自动化数学发现系统的设计与评测具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



