BuddenBench

github2026-01-29 更新2026-02-12 收录

下载链接：

https://github.com/maxvonhippel/budden-bench

下载链接

链接失效反馈

官方服务：

资源简介：

这个基准测试名为BuddenBench，旨在衡量模型和代理自主解决数学研究中开放和重要问题的能力。与其他问题集不同，该基准测试专门包含那些对在职数学家具有持续研究兴趣的问题。

This benchmark, named BuddenBench, aims to evaluate the ability of models and AI Agents to autonomously solve open and significant problems in mathematical research. Unlike other problem sets, this benchmark specifically includes problems that hold ongoing research interest for active mathematicians.

创建时间：

2026-01-18

原始信息汇总

BuddenBench 数据集概述

数据集基本信息

数据集名称：BuddenBench
数据集地址：https://github.com/maxvonhippel/budden-bench
数据集描述：一个用于衡量模型和智能体自主解决数学研究中开放且重要问题能力的基准测试。该基准测试专门包含对在职数学家具有持续研究兴趣的问题。

数据集特点

问题来源：包含来自多个列表的数学研究问题，例如“green”、“klee”和“kourovka”。
问题性质：均为开放且重要的数学研究问题，与Erdős Problems等不同，专注于当前数学家的研究兴趣。
灵感来源：受论文《Disproof of the Mertens Conjecture》启发，展示了计算代数系统如何通过寻找反例来解决长期存在的数学猜想。

使用工具

GAP (Groups, Algorithms, Programming)：用于计算离散代数，特别是计算群论的系统。
Lean 4：用于形式化和验证数学证明的交互式定理证明器。

问题状态统计

状态图例：
- 🟢 成功形式化（未解决）
- 🔴 无法形式化
- 🟡 未验证
- 🟣 新结果
- ⚪ 未知
问题列表与状态：
- green列表：包含100个问题，其中部分问题已形式化（状态为🟢），部分问题无法形式化（状态为🔴）。
- klee列表：包含多个问题，部分已形式化（状态为🟢），部分无法形式化（状态为🔴）。
- kourovka列表：包含多个问题，部分已形式化（状态为🟢），部分无法形式化（状态为🔴）。
人工审核状态：所有问题的人工审核状态均为“Pending”。

重要声明

AI生成解决方案警告：未经人工审核，不应信任任何AI生成的证明，无论其形式化程度如何。

搜集汇总

数据集介绍

构建方式

在数学研究领域，评估人工智能模型解决前沿开放问题的能力正成为一项关键挑战。BuddenBench的构建过程体现了对这一需求的深刻回应，其核心在于精心筛选那些在数学界具有持续研究价值的开放性问题。该数据集并非简单汇集已知难题，而是从多个权威问题列表中甄选，例如Kourovka笔记本中的群论问题，确保每个问题都代表着当前数学研究的前沿方向。构建团队进一步利用形式化验证工具Lean 4对问题进行形式化编码，将自然语言描述的数学猜想转化为机器可处理的定理陈述，这一过程本身即是对问题可形式化程度的严格检验。

特点

BuddenBench的独特之处在于其问题的前沿性与评估的严谨性。与传统的数学问题集不同，该基准专注于那些尚未解决且仍被活跃数学家探讨的开放性问题，这使得它能够更真实地反映模型在真实研究场景中的推理能力。数据集中的每个问题都附带了详细的形式化状态标记，例如“已形式化”或“无法形式化”，清晰地揭示了当前形式化工具在处理复杂数学概念时的边界。这种透明化的状态追踪机制，为研究者理解问题的可计算性本质提供了宝贵洞见。

使用方法

对于希望利用BuddenBench的研究者而言，其使用路径清晰而直接。数据集以GitHub仓库的形式公开，研究者可以克隆仓库并访问具体问题目录下的形式化文件，例如以`.lean`为扩展名的Lean 4代码。这些文件定义了问题的精确形式化陈述，用户可以直接将其作为目标，驱动自动化定理证明器或大型语言模型尝试生成证明。同时，数据集明确警示所有AI生成的证明必须经过严格的人工审查，这确立了以人机协同为核心的标准使用范式，旨在推动可靠且可验证的数学发现。

背景与挑战

背景概述

在人工智能与数学交叉研究的前沿，BuddenBench作为一个新兴的基准测试数据集，旨在评估模型与智能体自主解决数学研究领域开放且重要问题的能力。该数据集由研究社区自发构建，其灵感源于计算代数系统在解决长期数学猜想中的成功应用，例如梅滕斯猜想的证伪工作。数据集聚焦于当前数学家持续关注的非平凡研究问题，区别于传统问题集如埃尔德什问题，其核心研究问题在于推动形式化验证与计算工具在数学发现中的深度融合，对自动化定理证明和人工智能辅助数学研究领域具有显著的推动作用。

当前挑战

BuddenBench面临的挑战首先体现在领域问题层面，即如何准确评估人工智能系统对复杂、开放的数学问题的解决能力，这些问题往往涉及深层的抽象结构与逻辑推理，超越了传统分类或模式识别任务。构建过程中的挑战则包括将非形式化的数学问题转化为机器可处理的形式化表述，如使用Lean 4定理证明器时遇到的表述限制，以及确保问题集合既具研究意义又适于计算处理。此外，数据集还需应对人工智能生成证明的可信度验证难题，这要求严格的人类审查机制以避免形式化方法中的潜在谬误。

常用场景

经典使用场景

在数学研究领域，BuddenBench作为一项前沿的基准测试，其经典使用场景聚焦于评估人工智能模型与智能代理在解决开放且重要的数学研究问题上的自主能力。该数据集精心选取了来自Kourovka笔记本、Erdős问题集等来源的未解数学猜想，借助GAP系统与Lean定理证明器等工具进行形式化表述，为研究者提供了一个严谨的测试平台，用以衡量模型在抽象推理、猜想发现与形式化验证方面的表现。

解决学术问题

BuddenBench致力于解决数学与人工智能交叉领域的核心学术问题，即如何量化并提升智能系统在非平凡数学研究中的创新能力。它通过构建一个包含形式化未解问题的基准，直接应对了现有评估体系在衡量模型深层推理与创造性思维方面的不足。该数据集的意义在于为数学自动化研究设立了新的评价标准，推动了形式化方法与计算代数在猜想探索中的应用，促进了数学研究范式的革新。

衍生相关工作

围绕BuddenBench数据集，已衍生出一系列探索数学问题自动求解的经典研究工作。这些工作通常结合了大型语言模型的符号推理能力与形式化验证工具，旨在构建端到端的数学问题求解管道。例如，一些研究专注于如何将自然语言描述的数学问题自动转换为Lean或GAP可处理的形式化代码；另一些则探索利用强化学习或合成数据训练模型，使其能在该基准的特定问题上取得进展，这些努力共同推动了可解释人工智能在严格科学领域的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集