amitayusht/PutnamBench

Name: amitayusht/PutnamBench
Creator: amitayusht
Published: 2024-06-11 21:42:44
License: 暂无描述

Hugging Face2024-06-11 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/amitayusht/PutnamBench

下载链接

链接失效反馈

官方服务：

资源简介：

PutnamBench是一个用于评估定理证明算法在1965年至2023年威廉洛厄尔普特南数学竞赛问题上的基准测试。该数据集包含超过1300个手动形式化的定理，支持三种形式化语言：Lean 4、Isabelle和Coq。数据集旨在支持自动化数学推理的研究，通过提供多语言基准来评估定理证明算法。数据集根据宽松的许可证发布，鼓励社区贡献。

提供机构：

amitayusht

原始信息汇总

PutnamBench

概述

PutnamBench 是一个用于评估定理证明算法在 William Lowell Putnam 数学竞赛（1965-2023年）问题上的基准测试。支持三种形式化语言：Lean 4、Isabelle 和 Coq。包含超过1300个手动形式化的定理。

授权

Lean 4 和 Isabelle：Apache 2.0
Coq：MIT

作者

George Tsoukalas (george.tsoukalas@utexas.edu)
Jasper Lee
John Jennings
Jimmy Xin
Michelle Ding
Michael Jennings
Amitayush Thakur
Swarat Chaudhuri

统计数据

语言分布

语言	数量
Lean 4	514
Isabelle	514
Coq	309

问题类别分布

类别	数量
Algebra	218
Analysis	176
Number Theory	97
Linear Algebra	43
Abstract Algebra	25
Geometry	22
Combinatorics	12
Set Theory	4
Probability	2

搜集汇总

数据集介绍

构建方式

在数学定理证明领域，PutnamBench数据集通过系统化整理威廉·洛厄尔·普特南数学竞赛（1965年至2023年）的题目构建而成。研究团队采用人工形式化的方法，将竞赛题目转化为三种主流形式化语言——Lean 4、Isabelle和Coq的规范表达，累计完成超过1300项跨语言的形式化工作。该过程严格遵循数学逻辑的严谨性，确保每个问题在不同语言体系中的表述保持语义一致性，为自动化推理研究提供了多语言对齐的基准资源。

使用方法

研究者可将该数据集作为评估自动化定理证明系统的基准平台，通过跨语言验证对比不同形式化系统的推理效率。使用时应首先根据目标语言（Lean 4/Isabelle/Coq）加载对应模块，利用其分类体系进行领域特异性测试，例如聚焦代数类问题检验算法在多项式推理中的表现。数据集支持端到端的评估流程，用户可通过对比同一问题在不同语言中的证明路径，分析形式化转换对推理复杂度的影响，进而推动数学自动推理的跨系统迁移研究。

背景与挑战

背景概述

在自动定理证明与数学推理领域，构建高质量、多语言的数据集对于推动算法评估与模型发展至关重要。PutnamBench数据集由George Tsoukalas、Jasper Lee等研究人员于2023年创建，其核心研究问题聚焦于通过普特南数学竞赛（1965年至2023年）的题目，为定理证明算法提供跨形式化语言的基准测试。该数据集覆盖Lean 4、Isabelle和Coq三种形式化语言，包含超过1300项人工形式化内容，涵盖代数、分析、数论等多个数学分支，旨在促进自动数学推理研究的深入，对提升算法在复杂数学问题上的泛化能力与严谨性具有显著影响力。

当前挑战

PutnamBench所解决的领域问题在于自动定理证明算法在竞争性数学问题上的评估，其挑战体现在数学形式化的高度抽象性与逻辑严密性，要求算法能够处理多样化的数学结构并保证证明的精确性。构建过程中的挑战包括跨语言形式化的统一性维护，需在Lean 4、Isabelle和Coq之间确保语义一致性；同时，人工形式化工作量大且易出错，涉及对历史竞赛题目的准确解读与分类，尤其是在处理重叠数学类别时需保持数据结构的清晰与完整。

常用场景

经典使用场景

在自动定理证明领域，PutnamBench数据集为评估算法性能提供了多语言基准。该数据集汇集了1965年至2023年普特南数学竞赛的题目，涵盖代数、分析、数论等多个数学分支，通过Lean 4、Isabelle和Coq三种形式化语言实现了超过1300项人工形式化。研究者利用这一资源，能够系统测试定理证明系统在复杂数学问题上的推理能力，推动自动化数学推理技术的发展。

解决学术问题

PutnamBench致力于解决自动定理证明研究中缺乏标准化评估基准的难题。传统上，该领域常受限于单一语言或狭窄问题域，难以全面衡量算法泛化性能。此数据集通过多语言形式化和广泛题目覆盖，为比较不同证明策略提供了统一平台，显著促进了跨语言推理方法的研究，并助力于探索数学问题自动求解的边界。

实际应用

在实际应用中，PutnamBench可作为教育工具和工业级验证系统的测试床。在高等教育中，它帮助学生和教师深入理解形式化数学的实践；在软件工程领域，其形式化问题可用于验证关键系统的数学正确性，例如在航空航天或金融算法中确保逻辑严密性。数据集的开源特性进一步鼓励社区协作，加速实际场景中的技术落地。

数据集最近研究