RFMDataset (Reveal Failure Modes)
收藏arXiv2025-06-21 更新2025-06-24 收录
下载链接:
https://github.com/guodadi/RFMDataset
下载链接
链接失效反馈官方服务:
资源简介:
RFMDataset是一个包含200个数学证明问题的数据集,由多名博士级别的验证者从多个来源中手动选择,涵盖从初中到大学水平的数学知识。该数据集旨在揭示高级推理模型在数学证明方面的不足,通过引入一种半自动评估流程,包括人机交互评估,以确保评估的可靠性。数据集包含的问题范围广泛,从几何到概率论,难度级别从初级到奥林匹克水平,旨在评估模型在解决复杂数学证明问题时的推理能力。
RFMDataset is a dataset consisting of 200 mathematical proof problems. These problems were manually selected from multiple sources by multiple doctoral-level validators, covering mathematical knowledge spanning from middle school to university levels. This dataset is intended to uncover the limitations of advanced reasoning models in mathematical proof tasks, and incorporates a semi-automatic evaluation pipeline that includes human-machine interactive assessment to guarantee the reliability of the evaluation process. The dataset encompasses a broad spectrum of problem domains, ranging from geometry to probability theory, with difficulty levels ranging from introductory to Olympiad-level, and is designed to evaluate the reasoning capabilities of models when tackling complex mathematical proof problems.
提供机构:
香港科技大学
创建时间:
2025-06-21
原始信息汇总
RFMDataset 数据集概述
背景
- 针对大型推理模型在数学问题解决中存在的隐藏缺陷,通过数学证明的严谨性和方法复杂性作为诊断工具。
- 旨在揭示模型在推理过程中的根本性局限,包括:数学证明能力不足、单步推理正确性缺乏保障、推理过程中的幻觉和不完整性。
数据集内容
- 规模:包含200个精选数学证明问题(初始题库超过1000题)。
- 知识层级分布:
- 初中水平:52题
- 高中水平:88题
- 本科水平:60题
- 学科覆盖:涵盖几何、三角学、数列、微积分、概率等9个数学学科。
- 难度分级:每个知识层级内的问题按1-4级难度人工划分。
评估方法
- 细粒度错误分类:开发包含10种以上推理失败模式的分类体系(如逻辑违反、过度泛化、循环推理等)。
- 评估目标:精确分类模型生成的证明错误,深入理解其缺陷。
注意事项
- 部分问题为原创内容,后续将补充题目来源标注。
- 欢迎指出工作不足,并感谢数学爱好者的在线分享。
搜集汇总
数据集介绍

构建方式
RFMDataset的构建过程体现了严谨的学术态度与方法论创新。研究团队从超过1000道数学证明题中精选200道题目,覆盖初中、高中和大学三个教育层级,并涵盖几何、三角函数、数列、微积分等九大数学领域。题目来源包括考试真题、网络媒体、教材和竞赛题,并采用三项核心筛选标准:多样性(确保知识覆盖和推理方法的广泛性)、难度(过滤可通过标准算法模板解决的问题)和新颖性(避免与常见数学基准重复)。为确保数据质量,所有题目均经过博士级验证者的人工筛选,并采用半自动评估流程结合人类评估进行双重验证。
特点
该数据集具有三个显著特征:1) 细粒度错误分类系统,将模型证明错误划分为10种明确类型(如逻辑违规、隐藏假设等),为模型缺陷诊断提供精确工具;2) 多维度难度体系,题目按知识层级和四档难度(最高达奥赛水平)分级,可全面评估模型能力边界;3) 自然语言证明形式,区别于主流形式化语言数据集,更贴近实际教学场景。独特的问题设计(如禁止几何问题使用坐标系解法)有效规避模型取巧行为,确保真实推理能力的检验。
使用方法
使用RFMDataset需遵循标准化评估流程:首先将证明问题输入待测模型,生成自然语言证明;随后采用LLM-as-a-judge机制,通过特定提示词要求评估模型(如Gemini-2.5)进行分步验证,识别错误类型并给出整体正确性判断。关键环节包括:1) 双盲评估设计,避免评估偏差;2) 人类验证环节(随机抽样30个答案)确保评估可靠性,马修斯相关系数达89.76%;3) 细粒度错误统计,生成错误类型分布图谱。该流程支持对模型在单步推理严谨性、逻辑完整性等维度的深度诊断,为改进模型提供明确方向。
背景与挑战
背景概述
RFMDataset (Reveal Failure Modes) 是由香港科技大学的Dadi Guo等人于2025年提出的一个数学证明数据集,旨在揭示大型推理模型在数学证明任务中的潜在失败模式。该数据集包含200个多样化的数学证明问题,覆盖从初中到大学的知识水平,涉及几何、三角函数、数列、微积分和概率论等多个数学领域。RFMDataset的创建动机源于当前大型推理模型在数学问题解决中表现出的高准确率可能掩盖了其真正的推理缺陷,特别是在逻辑严谨性和单步推理正确性方面的不足。该数据集通过数学证明的严格性和方法复杂性,作为一种诊断工具,暴露这些隐藏的失败。
当前挑战
RFMDataset面临的挑战主要包括两个方面:1) 领域问题的挑战:数学证明要求严格的逻辑步骤和明确的推理过程,而当前大型推理模型在生成正确且严谨的证明方面表现不佳,特别是在逻辑违反、隐藏假设和模糊论证等方面存在显著缺陷。2) 构建过程中的挑战:数据集的构建需要手动选择和验证大量数学问题,确保其多样性和难度分布合理,同时开发半自动化的评估流程来精确分类模型的失败模式。此外,数据集的规模限制和自然语言证明的局限性也影响了其广泛适用性。
常用场景
经典使用场景
RFMDataset作为专门设计用于揭示大型推理模型在数学证明任务中失败模式的数据集,其经典使用场景主要集中在评估和诊断模型的逻辑推理能力。该数据集通过精心设计的200道数学证明题,覆盖从初中到大学不同难度级别的数学知识,为研究者提供了一个全面测试模型在复杂逻辑推理任务中表现的平台。在自然语言处理领域,特别是在评估大型语言模型的数学推理能力时,RFMDataset常被用作基准测试工具,帮助研究者识别模型在单步推理严谨性、逻辑一致性等方面的缺陷。
实际应用
在实际应用层面,RFMDataset的价值体现在多个方面:教育科技领域可用于开发更智能的数学辅导系统,通过分析学生解题过程中的错误模式提供针对性指导;在AI安全领域,该数据集揭示的模型推理缺陷有助于开发更可靠的验证系统;对大型语言模型的开发者而言,数据集提供的细粒度错误分析可作为模型优化的重要参考。此外,数据集的评估方法(结合LLM-as-a-judge和人工评估)为自动化评估复杂推理任务提供了可行方案,这种混合评估框架可推广到其他需要严谨推理的领域。
衍生相关工作
RFMDataset的发布催生了一系列相关研究工作:在方法论层面,基于其细粒度错误分类系统,研究者开发了针对逻辑错误检测的新型评估指标;在模型优化方面,该数据集启发了多种针对数学推理的微调方法,如基于形式化语言的反思机制;数据集揭示的模型缺陷也促进了关于大型语言模型推理能力本质的理论探讨。此外,该工作还推动了类似诊断性数据集的构建,如针对几何证明、形式化数学等特定领域的评估工具,形成了一个以揭示和改善AI系统推理能力为核心的研究方向。
以上内容由遇见数据集搜集并总结生成



