lean-proof-compression

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/leanpolish-anon/lean-proof-compression

下载链接

链接失效反馈

官方服务：

资源简介：

LeanPolish 是一个包含 Lean 4 证明重写对的数据集，专为训练能够压缩、简化或选择证明策略的模型而设计。该数据集由 LeanPolish 工具生成，所有接受的 (原始, 替换) 对都经过 Lean 4.21.0 内核验证。数据集包含 7 个分片，总计 33,402 个接受的优化示例和 65,596 个被拒绝的对比示例。每个示例包含详细的元数据，如证明状态、目标类型、替换内容等。数据集适用于文本生成、定理证明、证明优化和强化学习等任务，特别适合用于对比学习或直接偏好优化 (DPO) 设置。数据以 gzipped JSONL 格式存储，包含严格语义分离的训练对和被拒对文件。

LeanPolish is a dataset containing Lean 4 proof rewrite pairs, specifically designed for training models capable of compressing, simplifying, or selecting proof strategies. The dataset is generated by the LeanPolish tool, and all accepted (original, replacement) pairs are validated by the Lean 4.21.0 kernel. The dataset consists of 7 shards, totaling 33,402 accepted optimization examples and 65,596 rejected contrastive examples. Each example includes detailed metadata such as proof state, goal type, replacement content, etc. The dataset is suitable for tasks like text generation, theorem proving, proof optimization, and reinforcement learning, and is particularly well-suited for contrastive learning or Direct Preference Optimization (DPO) setups. The data is stored in gzipped JSONL format, with strictly semantically separated files for training pairs and rejected pairs.

创建时间：

2026-04-30

原始信息汇总

好的，这是对您提供的 LeanPolish 数据集详情页面的总结：

数据集概述：LeanPolish

核心内容

数据集名称: LeanPolish: A Kernel-Verified Dataset and Symbolic Compression Framework for Lean 4 Proofs
数据集描述: 这是一个由 LeanPolish 工具生成的 Lean 4 证明重写对 数据集。该工具是一个经过内核验证的证明缩短工具。数据集中的每个 (original, replacement) 对都经过 Lean 4.21.0 和 Mathlib v4.21.0 的内核验证，并且重写后的文件由独立的进程外验证器进行了端到端重新编译。

数据集规模与构成

总数据量: 包含 33,402 个正向优化训练样本和 65,596 个经过去重的对比性拒绝样本。
许可协议: Apache-2.0
语言: 英语
数据用途: 文本生成、语言建模，以及定理证明优化、强化学习（RL）、直接偏好优化（DPO）等。

数据分割与文件结构

数据集包含 7 个分片（shard），每个分片下最多包含三个 gzip 压缩的 JSONL 文件：

training_pairs.jsonl.gz: 包含已验证的正面优化样本。
rejected_pairs.jsonl.gz: 包含在同一个 attempt_id 下被更高排名候选方案取代的样本，可作为 DPO 的对比负样本。

分片名称	训练样本数	拒绝样本数	压缩后大小
`mathlib`	6,695	26,912	42.5 MB
`goedel`	20,822	28,525	10.3 MB
`minif2f`	1,184	3,753	720 KB
`putnam_bench`	4,354	5,930	1.4 MB
`putnam_verified`	80	254	60 KB
`putnam2025_per_file`	142	147	83 KB
`putnam2025_pool`	125	75	91 KB
总计	33,402	65,596	55.1 MB

数据特征 (Schema `version: 2`)

每一行 JSON 数据包含多个字段，用于描述一次证明重写尝试，关键字段包括：

核心标识: attempt_id, file, line, start_byte, end_byte
原始与替换内容: original, replacement, context, goal_pretty, goal_state
质量指标: bytes_original, bytes_shortened, tokens_original, tokens_shortened, lines_original, lines_shortened, savings, term_size, edit_width
结果与状态: outcome, type (例如 tactic_replacement, dead_code_removal, rejected_attempt), kind, corpus, git_sha, mathlib_rev
失败信息: failed_tactics (数组), failed_attempts (数组，包含 err, tac, wall_ms 字段)
其他: content_sha256, schema_version, rank_in_attempt, wall_ms, err_msg

注意: 分片 minif2f, putnam2025_per_file, putnam_verified 的 Schema 略有不同，缺少 axis_orig, axis_repl, failed_attempts 等字段。

数据用途建议

该数据集适用于训练模型进行以下任务：

压缩与简化证明: 学习如何缩短或优化 Lean 4 的证明。
证明策略选择: 选择更优的证明策略。
对比学习/直接偏好优化 (DPO): 利用 rejected_pairs.jsonl.gz 中的负样本进行训练。

搜集汇总

数据集介绍

构建方式

在形式化定理证明领域，如何优化Lean 4证明的简洁性与可读性一直是核心挑战。该数据集基于LeanPolish工具构建，通过一种内核验证的符号压缩框架，从开源数学库mathlib、哥德尔问题集、minif2f基准以及Putnam数学竞赛等多个语料库中，系统性地提取证明简化对。每个数据条目包含一条原始证明片段及其经内核验证的替换版本，替换过程严格在Lean 4.21.0与Mathlib v4.21.0环境下完成，确保替换后的文件经完全重新编译，从而保证语义等价性。数据划分依据每个条目的类型字段，将成功的优化（如策略替换、死代码删除）归入训练集，而同一尝试中落选的候选则作为对比负样本存入拒绝集，总计生成33,402条正向优化与65,596条对比负样本。

使用方法

该数据集设计为支持多种机器学习范式下的定理证明优化研究。用户可通过HuggingFace Datasets库按配置名加载不同语料库的分片，每个配置均包含'training'和'rejected'两个拆分。对于标准的监督学习，可直接使用'training'拆分中的正向优化对，将'original'字段作为输入、'replacement'字段作为目标进行序列到序列建模。对于偏好学习任务，可组合同一'attempt_id'下的正向与拒绝样本构建对比训练对。建议根据实际需求筛选'savings'、'bytes_shortened'等数值字段作为学习目标，或利用'goal_pretty'与'context'字段为模型提供定理环境信息。数据以gzip压缩的JSONL格式存储，可直接流式读取以适应大规模训练场景。

背景与挑战

背景概述

LeanPolish数据集由研究团队于2024年基于Lean 4.21.0与Mathlib v4.21.0构建，专注于形式化定理证明中的证明压缩与优化。作为首个经内核验证的Lean 4证明改写对数据集，它涵盖mathlib、MiniF2F及Putnam竞赛等多个基准，收录33,402个经端到端重精化验证的正向优化样本及65,596个对比性负例，为证明简化、策略选择与对比学习提供了高质量训练资源。该数据集填补了形式化证明自动化领域缺乏大规模、可验证改写数据的空白，显著推动了神经符号方法在证明压缩与强化学习中的应用与评估。

当前挑战

该数据集致力于应对形式化证明领域的两大挑战：其一，自动化证明系统生成的证明常冗长且难以维护，亟需方法在保持内核验证正确性的前提下，对证明进行无损压缩与符号简化，以提升人力审查效率与后续推理的可擴展性；其二，在构建过程中，需在Lean 4类型系统的严格约束下设计可靠的证明改写算法，并确保每个改写对均通过独立进程的完整重精化验证，这一过程面临调度策略优化、大规模并性验证及编辑操作语义保真性的严峻考验。

常用场景

经典使用场景

在形式化定理证明与机器学习交叉领域，LeanPolish数据集为优化Lean 4证明脚本提供了一种核验驱动的范式。其经典使用场景聚焦于训练语言模型学习证明压缩与战术选择，通过海量内核验证的(原始, 替换)配对数据，使得模型能够自动生成更简洁、更高效的证明片段。数据集精心设计了正例与负例的分层结构，特别适用于对比学习与直接偏好优化（DPO）框架，引导模型在多样化的数学证明语料库中习得精炼策略。

解决学术问题

该数据集直面的核心学术挑战在于如何弥合机器学习生成的证明与形式化验证系统之间的可靠性鸿沟。LeanPolish通过提供经Lean 4.21.0内核与另进程重编织双重核验的证明重写对，解决了此前缺乏大规模、高置信度证明优化训练资源的困境。其引入的拒绝配对机制为研究证明空间的对比排序与偏好对齐开辟了新路径，有效推动了自动定理证明中关于证明简洁性、可读性与验证正确性之间张力的学术探讨，对构建更稳健的神经符号推理系统具有奠基性意义。

实际应用

在实际应用中，该数据集直接服务于数学库维护与交互式定理证明器的效率提升。通过训练专用的证明压缩模型，能够自动简化Mathlib等大型形式化数学库中冗长或冗余的证明代码，显著降低人工重构的工作量。同时，数据集支持开发智能补全与战术推荐引擎，在交互式证明环境中为数学家提供实时、经过验证的高效替换建议。此外，在数学竞赛题型（如Putnam试题）的自动化证明尝试中，数据集提供的优化样本可用于提升自动推理系统的搜索效率与结果质量。

数据集最近研究