ReliableMath
收藏arXiv2025-07-04 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/BeyondHsueh/ReliableMath
下载链接
链接失效反馈官方服务:
资源简介:
ReliableMath数据集是一个用于评估大型语言模型在数学推理任务中可靠性的数据集。它包含可解决和不可解决的数学问题。可解决的问题是来自开源数据集,如AIME,而不可解决的问题是通过一个三阶段的数据构建流程合成的,包括问题重写、模型验证和人工检查。数据集旨在帮助研究和提高大型语言模型在推理任务中的可靠性。
The ReliableMath dataset is a benchmark developed to evaluate the reliability of large language models (LLMs) in mathematical reasoning tasks. It comprises both solvable and unsolvable mathematical problems. Solvable problems are sourced from open-source datasets such as AIME, whereas unsolvable problems are synthesized through a three-stage data construction pipeline covering problem rewriting, model validation, and manual inspection. This dataset is intended to facilitate research and enhance the reliability of large language models in mathematical reasoning tasks.
提供机构:
香港中文大学
创建时间:
2025-07-04
搜集汇总
数据集介绍

构建方式
ReliableMath数据集的构建采用了多阶段工作流程,首先从公开数学竞赛题库(如AIME、AMC等)收集可解数学题作为基础数据。针对不可解题的构建,研究团队创新性地设计了三阶段流程:1)通过条件删除或矛盾条件注入的方式重写可解题;2)利用大语言模型进行双重验证(条件修改合规性与不可解性判定);3)由数学专家进行人工校验,标注问题难度等级。该流程共生成1,102道高质量不可解题,与313道可解题共同构成完整数据集。
使用方法
使用ReliableMath时需区分两种评估模式:标准模式采用常规数学解题提示词,评估模型对不可解题的天然识别能力;可靠模式采用特殊提示词要求模型标注不可解情况。评估指标采用精确度(Precision)和审慎度(Prudence)的加权计算,分别衡量模型在可解题的正确率与在不可解题上的拒答能力。对于小模型优化,可采用论文提出的对齐策略,通过拒绝采样生成训练数据,使用监督微调提升可靠性表现。数据集支持领域内评估(同分布数学题)和跨领域评估(不同难度数学题)两种验证模式。
背景与挑战
背景概述
ReliableMath数据集由香港中文大学、华为诺亚方舟实验室和香港大学的研究团队于2025年创建,旨在系统评估大型语言模型(LLMs)在数学推理任务中的可靠性。该数据集填补了数学推理领域缺乏不可解问题基准的空白,包含开源可解问题和通过三阶段构建流程生成的高质量不可解问题。其创新性体现在首次将可靠性评估从知识任务扩展到复杂推理领域,通过定义可解/不可解问题的分类标准,为LLMs在数学场景下的可信赖性提供了量化框架。该数据集对推动可靠推理模型的发展具有重要意义,相关成果发表在arXiv预印本平台。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决LLMs对不可解数学问题仍生成虚假推理步骤的可靠性缺陷,这种过度思考现象导致错误答案和资源浪费;在构建过程中,合成高质量不可解问题需克服条件改写合理性验证、逻辑一致性维护等难题,研究团队设计了包含LLM预筛选和人工验证的三阶段流程以确保数据质量。此外,小规模LLMs在识别问题不可解性方面表现欠佳,需开发专门的对齐策略提升其可靠性,这构成了方法层面的挑战。
常用场景
经典使用场景
ReliableMath数据集在评估大型语言模型(LLM)在数学推理任务中的可靠性方面具有经典应用场景。该数据集通过整合开源可解数学问题与人工合成的高质量无解问题,为研究者提供了一个系统化的测试平台。在数学推理领域,研究者可利用该数据集验证模型在面对可解与无解问题时的表现差异,特别是模型是否能够正确识别无解问题并避免生成误导性答案。这一场景在数学教育、自动解题系统等领域尤为重要,确保了模型输出的准确性与可信度。
解决学术问题
ReliableMath数据集解决了LLM在数学推理任务中可靠性评估的关键学术问题。传统研究多集中于知识型任务中的可靠性,而忽视了推理任务中模型对问题可解性的判断能力。该数据集填补了这一空白,通过构建无解数学问题集,使研究者能够系统评估模型在识别无解问题时的表现。其意义在于揭示了LLM在数学推理中的局限性,如过度生成无效推理步骤的“过度思考”问题,并为提升模型可靠性提供了数据基础与评估框架。
实际应用
在实际应用中,ReliableMath数据集可显著提升数学辅助工具与教育系统的可靠性。例如,在智能解题系统中,模型需区分可解问题与无解问题,避免因强行生成答案而误导用户。此外,该数据集还可用于优化模型在竞赛数学、工程计算等领域的应用,确保模型在复杂推理场景中保持高可信度。通过引入可靠提示与对齐策略,实际部署的模型能够更精准地识别无解问题或拒绝回答,从而降低错误输出的风险。
数据集最近研究
最新研究方向
近年来,ReliableMath数据集在大型语言模型(LLMs)可靠性评估领域引起了广泛关注。该数据集通过整合可解与不可解数学问题,为系统评估LLMs在数学推理任务中的可靠性提供了全新基准。前沿研究主要聚焦于三个方向:首先,探索可靠提示(reliable prompts)对提升模型在不可解问题上识别能力的影响,实验表明该方法能显著改善大型模型的可靠性表现;其次,针对小型LLMs可靠性不足的问题,研究者提出了基于对齐策略(alignment strategy)的改进方案,通过拒绝采样和微调技术有效增强了模型在领域内外任务上的可靠性;此外,数据集构建流程中引入的人类专家评估机制,为不可解问题的难度分级和质量控制提供了重要参考。这些研究不仅填补了数学推理领域可靠性评估的空白,也为开发更可信的AI系统提供了方法论指导。
相关研究论文
- 1ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models香港中文大学 · 2025年
以上内容由遇见数据集搜集并总结生成



