FineProofs-SFT; FineProofs-RL
收藏arXiv2026-04-07 更新2026-04-07 收录
下载链接:
https://huggingface.co/lm-provers
下载链接
链接失效反馈官方服务:
资源简介:
FineProofs数据集由LM Provers团队构建,包含约5000条经过严格筛选的奥林匹克数学证明问题,涵盖几何、数论、代数等领域。数据源自Art of Problem Solving论坛及国际数学竞赛官方题解,通过多阶段过滤去除噪声问题并标注难度等级。该数据集采用分级评分机制,为强化学习提供细粒度反馈,支持小模型在数学定理证明领域的性能突破,应用于开放数学推理研究。
提供机构:
卡内基梅隆大学; Hugging Face; 苏黎世联邦理工学院; Project Numina
创建时间:
2026-04-07
搜集汇总
数据集介绍

构建方式
在数学定理证明领域,构建高质量的训练数据是提升模型推理能力的关键。FineProofs-SFT与FineProofs-RL数据集的构建始于对公开数学竞赛资源的系统筛选,主要来源包括AI-MO/aops论坛与AI-MO/olympiads官方解答库。通过多阶段过滤流程,移除了包含图像、表述模糊或过于简单的题目,并利用自动化工具检测逻辑漏洞与不一致性,最终精选出约5000道奥林匹克级别的证明问题,涵盖几何、数论、代数与组合数学等核心领域。为确保强化学习阶段获得稳定的奖励信号,每道题目均配备了详细的评分方案,该方案依据特定提示由大模型生成,明确列出了部分得分点、零分项与扣分规则,从而为模型提供了密集且结构化的反馈,而非稀疏的成功信号。
特点
该数据集的核心特点在于其针对高阶数学证明任务的专门化设计。与常规数学问答数据集不同,FineProofs系列专注于需要长程、连贯且严格逻辑论证的奥林匹克级证明问题,强调推理过程而非最终答案的验证。数据集中的每道题目均附有精细构建的评分方案,这些方案不仅评估最终结论的正确性,更关注证明步骤的严谨性与完整性,为模型提供了可解释的、基于规则的奖励信号。此外,数据集还包含题目难度标注,这些标注基于基础模型在大量并行尝试中的平均表现生成,为后续训练中的课程学习机制奠定了基础,使模型能够从易到难逐步掌握复杂证明的生成能力。
使用方法
该数据集旨在支持数学定理证明模型的专项训练,其使用方法紧密围绕论文提出的三阶段训练流程展开。在监督微调阶段,FineProofs-SFT数据集用于从大型教师模型(如DeepSeek-Math-V2)中蒸馏证明写作风格,使小型基础模型初步掌握生成结构化证明的能力。在强化学习阶段,FineProofs-RL数据集及其配套的评分方案被用于训练基于规则的奖励模型,通过GRPO等算法优化模型在长序列生成中的表现,鼓励其产生更严谨、更完整的证明。此外,数据集中包含的难度标注可用于构建训练课程,而推理缓存框架的引入则允许模型在测试时通过迭代式的总结与精炼循环,充分利用增大的计算预算来分解和攻克冗长证明,从而将训练与推理策略有效对齐。
背景与挑战
背景概述
FineProofs-SFT与FineProofs-RL数据集诞生于2026年,由卡内基梅隆大学、Hugging Face、苏黎世联邦理工学院及Numina项目的联合团队构建,旨在推动开放模型在奥林匹克数学证明生成领域的研究。该数据集的核心研究问题是:能否通过监督微调与强化学习相结合的方法,训练小型开放模型在复杂定理证明任务上达到与大型专有模型相竞争的性能。其构建为QED-Nano等小型证明生成模型的训练提供了关键数据支撑,显著降低了高级数学推理研究的门槛,并对开源数学推理社区产生了深远影响。
当前挑战
FineProofs数据集致力于解决奥林匹克级别数学定理证明生成的挑战,该任务要求模型输出冗长、全局连贯且数学严谨的论证,而非仅验证最终答案。构建过程中的主要挑战包括:从公开竞赛论坛数据中滤除噪声、不完整推理及格式伪影,以构建高质量证明问题语料库;同时,为强化学习设计基于评分规则的奖励信号,需为每个问题制定详细的评分方案,以提供密集、信息丰富的反馈,替代稀疏的成功信号,从而引导模型进行渐进式长程推理改进。
常用场景
经典使用场景
在数学定理证明与自动推理领域,FineProofs-SFT与FineProofs-RL数据集为小型语言模型的精细化训练提供了关键支撑。这些数据集通过监督微调和强化学习两个阶段,专门针对奥林匹克数学级别的证明生成任务进行优化。其经典使用场景体现在为QED-Nano等小型模型提供高质量的证明轨迹数据,使模型能够学习复杂的数学论证结构,从而在有限参数规模下实现接近前沿大模型的推理性能。
解决学术问题
该数据集有效解决了数学自动推理中模型规模与性能平衡的核心学术问题。传统上,高性能证明生成依赖数百亿参数的大型模型,导致训练与推理成本高昂且难以复现。FineProofs系列通过精心构建的评分方案和强化学习奖励机制,使小型模型能够掌握长程、连贯的数学证明写作能力,突破了模型规模对推理性能的制约。其意义在于为开源社区提供了可复现的高效训练范式,推动了数学推理研究的民主化进程。
衍生相关工作
该数据集衍生出一系列围绕小型模型数学推理优化的经典研究工作。以QED-Nano为代表的训练范式启发了后续诸多改进方向,包括推理缓存框架的扩展应用、评分方案与奖励函数的精细化设计,以及测试时脚手架方法的系统整合。相关工作如Reasoning Cache机制将长证明分解为迭代优化循环,DeepSeek-Math-V2的蒸馏策略则提供了高质量监督数据生成方法,共同构成了当前开源数学推理领域的重要技术脉络。
以上内容由遇见数据集搜集并总结生成



