HUNYUANPROVER数据集

Name: HUNYUANPROVER数据集
Creator: 腾讯混元团队
Published: 2024-12-30 14:18:33
License: 暂无描述

arXiv2024-12-30 更新2025-01-02 收录

下载链接：

http://arxiv.org/abs/2412.20735v1

下载链接

链接失效反馈

官方服务：

资源简介：

HUNYUANPROVER数据集由腾讯混元团队创建，旨在解决自动定理证明中的数据稀疏问题。该数据集包含3万条合成实例，每条实例包括自然语言中的原始问题、通过自动形式化转换的陈述以及由HunyuanProver生成的证明。数据集通过开源数学问题和自然语言数学问题生成，经过多次迭代优化，最终用于训练和改进自动定理证明模型。该数据集的应用领域主要集中在自动定理证明，旨在提升模型在复杂数学问题上的推理和证明能力。

The HUNYUANPROVER dataset was developed by the Tencent Hunyuan Team to tackle the problem of data sparsity in automated theorem proving. It contains 30,000 synthetic instances, each including the original natural language problem, the formal statement converted via automated formalization, and the proof generated by HunyuanProver. The dataset is generated from open-source mathematical problems and natural language mathematical problems, and has undergone multiple iterative optimizations before being ultimately used for training and improving automated theorem proving models. The primary application domain of this dataset is automated theorem proving, aiming to enhance the model's reasoning and proof capabilities for complex mathematical problems.

提供机构：

腾讯混元团队

创建时间：

2024-12-30

搜集汇总

数据集介绍

构建方式

HUNYUANPROVER数据集的构建采用了可扩展的数据合成框架，旨在解决自动定理证明领域中的数据稀疏问题。首先，利用开源数据训练初始的自动形式化器和证明器，随后通过自动形式化器将大量自然语言数学问题转换为目标证明器（如LEAN4）的格式。在此基础上，通过迭代生成新的证明数据，不断优化证明器。测试阶段，设计了树搜索算法和多个批评模型，以实现复杂的定理证明任务所需的“系统2思维”。

特点

HUNYUANPROVER数据集包含30,000个合成实例，每个实例均包含自然语言中的原始问题、通过自动形式化转换的陈述以及由HunyuanProver生成的证明。该数据集的特点在于其大规模和高多样性，涵盖了从基础数学问题到奥林匹克竞赛级别的复杂定理。此外，数据集通过迭代生成和筛选，确保了数据的质量和难度分布，使其能够有效支持自动定理证明模型的训练和评估。

使用方法

HUNYUANPROVER数据集的使用方法主要包括模型训练和性能评估。在训练阶段，模型通过数据集中的自然语言问题、形式化陈述和证明进行迭代优化，提升其自动定理证明能力。在评估阶段，数据集可用于测试模型在复杂定理证明任务中的表现，特别是在miniF2F等基准测试中的准确率。此外，数据集还可用于研究树搜索算法和批评模型在自动定理证明中的有效性，进一步推动该领域的技术发展。

背景与挑战

背景概述

HUNYUANPROVER数据集由腾讯混元团队于2024年提出，旨在解决自动定理证明领域中的数据稀缺问题。该数据集基于HUNYUAN 7B模型进行微调，结合LEAN4进行交互式定理证明。其主要贡献在于设计了一个可扩展的数据合成框架，通过迭代生成低成本的数据，并结合引导树搜索算法，实现了在复杂定理证明任务中的高效推理。HUNYUANPROVER在多个基准测试中取得了最先进的性能，特别是在miniF2F测试中达到了68.4%的通过率，超越了现有的最佳结果。该数据集的发布为自动定理证明领域提供了丰富的训练资源，推动了该领域的研究进展。

当前挑战

HUNYUANPROVER数据集在构建和应用过程中面临多重挑战。首先，自动定理证明本身具有极高的复杂性，尤其是在处理奥林匹克级别的数学问题时，搜索空间巨大，模型需要同时理解形式系统的语法和语义，并具备抽象数学推理能力。其次，数据稀缺是自动定理证明领域的主要瓶颈之一，现有的公开数据集如mathlib4仅包含约5万条定理，远不足以训练强大的证明器。HUNYUANPROVER通过自动形式化和迭代生成策略数据来缓解这一问题，但在数据生成过程中仍需解决形式化转换的准确性和数据多样性的问题。此外，引导树搜索算法的设计也面临挑战，如何有效结合多种批评模型以提升搜索效率仍需进一步探索。

常用场景

经典使用场景

HUNYUANPROVER数据集在自动定理证明领域中被广泛用于训练和评估语言模型，特别是在使用LEAN4进行形式化定理证明的场景中。该数据集通过自动形式化技术将自然语言数学问题转换为LEAN4格式的语句，并结合迭代的证明生成框架，显著提升了模型在复杂数学问题上的推理能力。其经典使用场景包括在miniF2F等基准测试中验证模型的证明准确性和效率。

解决学术问题

HUNYUANPROVER数据集有效解决了自动定理证明中数据稀缺的关键问题。通过其可扩展的数据生成框架，该数据集能够从开源的自然语言数学问题中生成大量训练数据，显著提升了模型在形式化定理证明中的表现。此外，其设计的引导树搜索算法帮助模型实现了更高效的“系统2思维”，从而在复杂的数学推理任务中取得了显著的性能提升。

衍生相关工作

HUNYUANPROVER数据集衍生了一系列相关研究工作，特别是在自动定理证明和形式化推理领域。例如，基于该数据集的研究提出了多种改进的树搜索算法，如蒙特卡洛树搜索（MCTS）和最佳优先搜索（BFS），并设计了多种批评模型来指导搜索过程。此外，该数据集还启发了其他研究团队开发类似的数据生成框架，进一步推动了自动定理证明技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集