DeepTheorem Dataset

github2025-05-26 更新2025-06-03 收录

下载链接：

https://github.com/Jiahao004/DeepTheorem

下载链接

链接失效反馈

官方服务：

资源简介：

DeepTheorem数据集包含121K个IMO级别的非正式定理和证明，涵盖多样化的数学领域。每个定理-证明对都经过严格标注，确保正确性、难度和主题分类。

The DeepTheorem dataset encompasses 121K non-formal theorems and their proofs at the IMO level, covering a diverse range of mathematical fields. Each theorem-proof pair is meticulously annotated to ensure accuracy, difficulty, and thematic categorization.

创建时间：

2025-05-22

原始信息汇总

DeepTheorem 数据集概述

数据集基本信息

名称：DeepTheorem
规模：121K条高质量非正式定理及证明
级别：IMO（国际数学奥林匹克）级别
领域：涵盖代数、几何、数论等多个数学领域

核心特点

数据质量
- 所有定理证明均经过严格标注
- 包含o3-mini模型生成或验证的证明
- 标注内容包括：
  - 定理真值（真/假）
  - 难度等级
  - 主题分类
  - 定理变体（正/负变体）
多样性
- 包含系统构建的可验证定理变体
- 覆盖不同复杂度的数学问题
格式
- 存储格式：JSON
- 包含字段：定理陈述、证明、标注信息、变体

性能表现

在商业模型和开源模型中排名第5
提供不同参数规模模型的性能对比（7B/3B/1.5B）

应用方向

大型语言模型的数学推理能力训练
自动定理证明（ATP）研究
数学推理质量评估

获取方式

可通过Hugging Face平台获取完整数据集
提供示例问题及模型响应样本

相关资源

RL-Zero训练策略
包含结果和过程评估指标的完整评估框架

搜集汇总

数据集介绍

构建方式

DeepTheorem数据集通过精心设计的流程构建，专注于提升大语言模型在数学定理证明中的推理能力。该数据集包含12.1万条高质量的国际数学奥林匹克（IMO）级别非正式定理及其证明，覆盖代数、几何、数论等多个数学领域。每条定理都经过严格标注，包括正确性验证、难度分级和主题分类，并系统性地构建了可验证的定理变体，以增强评估的鲁棒性。数据集的构建充分利用了o3-mini模型生成的证明，确保了数学准确性。

特点

DeepTheorem数据集以其多样性和高质量著称，特别适合用于训练和评估大语言模型的数学推理能力。数据集中的定理和证明不仅涵盖广泛的数学主题，还通过难度分级适应不同能力的模型需求。其独特的定理变体设计为模型提供了更全面的训练和评估场景，显著提升了模型在非正式定理证明中的表现。此外，数据集还包含了详细的标注信息，如真实值和主题分类，为研究提供了丰富的数据支持。

使用方法

DeepTheorem数据集的使用方法灵活多样，适用于训练、评估和数学探索。用户可以从Hugging Face平台下载数据集，数据以JSON格式存储，包含定理陈述、证明、标注和变体信息。数据集特别适合与强化学习策略结合使用，如RL-Zero训练管道，通过利用已验证的定理变体来激励模型进行鲁棒的数学推理。用户还可以参考示例文件中的定理和证明，快速上手并应用于实际研究中。

背景与挑战

背景概述

DeepTheorem数据集由Jiahao004团队于2023年推出，旨在推动大语言模型在数学定理证明领域的推理能力。该数据集聚焦于非形式化数学推理，突破了传统自动定理证明系统对形式化语言的依赖，更贴近大语言模型的自然语言预训练特性。作为目前规模最大的IMO级别数学定理数据集，其包含12.1万条经过严格标注的定理-证明对，涵盖代数、几何、数论等多个数学分支，为评估模型复杂推理能力提供了标准化基准。该数据集的创新性在于将强化学习策略与自然语言推理相结合，在NeurIPS等顶级会议上引发了对非形式化数学推理研究的新热潮。

当前挑战

在领域问题层面，DeepTheorem需解决数学推理中形式化与非形式化系统的语义鸿沟问题，传统ATP系统依赖严格的逻辑语法，而大语言模型更擅长自然语言表达，这种差异导致模型在形式化验证中表现受限。构建过程中的挑战主要体现在三个方面：高质量数学内容的专业标注需要数论、拓扑学等领域的专家参与；定理变体的系统性生成要求保持原始命题的语义一致性；评估体系的设计需要兼顾证明结果的正确性与推理过程的合理性，这促使研究者开发了包含结果指标和过程指标的多维评价框架。

常用场景

经典使用场景

在数学推理和自动定理证明领域，DeepTheorem数据集为研究者提供了一个丰富的资源库。该数据集包含12.1万条高质量的非正式定理和证明，覆盖代数、几何、数论等多个数学分支。研究者可以利用这些数据训练和评估大型语言模型在数学推理方面的能力，特别是在处理IMO级别复杂问题时展现出的推理质量。数据集中的定理变体进一步增强了模型的鲁棒性评估，使其成为推动自动定理证明技术发展的关键工具。

衍生相关工作

基于DeepTheorem数据集，已衍生出多项重要研究工作。RL-Zero训练策略的开创性应用引领了新型强化学习在数学推理领域的发展，相关模型在多个数学竞赛基准测试中取得突破性成绩。数据集还催生了针对定理证明过程质量评估的新指标体系，为自动推理系统的性能评估建立了更全面的标准。这些工作共同推动了自然语言处理与形式化数学的交叉研究，为AI数学推理能力的提升奠定了坚实基础。

数据集最近研究