MATH-Beyond (MATH-B)

Name: MATH-Beyond (MATH-B)
Creator: 德国蒂宾根大学、蒂宾根AI中心、马克斯·普朗克智能系统研究所、艾利斯研究所
Published: 2025-10-14 01:30:54
License: 暂无描述

arXiv2025-10-14 更新2025-10-15 收录

下载链接：

https://brendel-group.github.io/math-beyond/

下载链接

链接失效反馈

官方服务：

资源简介：

MATH-Beyond（MATH-B）是一个高中水平竞赛数学问题的新基准，专门设计为即使有1024次尝试，流行的开源基准模型也不太可能解决。MATH-B是通过筛选数学推理数据集（DAPO-Math-17K和DeepScaleR）构建的，导致的问题在主题上与标准基准没有区别。所有问题都经过前沿模型（如o4-mini-high和GPT-5-Mini）的答案验证，以确保正确性。MATH-B旨在解决现有强化学习（RL）模型在解决复杂数学问题时面临的局限性，鼓励探索新的推理方法。

MATH-Beyond (MATH-B) is a novel benchmark of high school-level competitive mathematics problems, specifically designed such that even with 1024 attempts, popular open-source baseline models are unlikely to solve them. MATH-B is constructed by filtering mathematical reasoning datasets (DAPO-Math-17K and DeepScaleR), resulting in problems that are thematically indistinguishable from standard benchmarks. All problems have been validated for correctness using answer outputs from cutting-edge models including o4-mini-high and GPT-5-Mini. MATH-B aims to address the limitations encountered by existing reinforcement learning (RL) models when tackling complex mathematical problems, and encourages the exploration of novel reasoning methodologies.

提供机构：

德国蒂宾根大学、蒂宾根AI中心、马克斯·普朗克智能系统研究所、艾利斯研究所

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

在数学推理模型评估领域，现有基准往往因基础模型的高采样通过率而失去区分度。MATH-Beyond通过多阶段筛选流程构建：首先从DAPO-Math-17K和DeepScaleR数据集中选取53,682道候选题目，经过整数答案筛选、多选题剔除等质量过滤后保留34,515道；接着通过DeepSeek-R1-Distill-Qwen2.5-7B进行预筛选，仅保留pass@16未通过的题目；随后采用GPT-5-Mini等前沿模型验证答案正确性，并通过字符串匹配去除与现有基准重复的题目；最终对11个开源基础模型进行pass@1024评估，筛选出所有模型均未解决的41道题目构成交集集，以及至少一个模型未解决的181道题目构成并集集。

特点

该数据集具有三个显著特征：题目内容均来自标准高中数学课程，涵盖离散数学（38.1%）、几何（17.1%）、数论（15.5%）等传统领域，确保主题相关性；人类难度评分中位数仅为4分（满分10分），但基础模型在1024次采样下通过率接近零，揭示模型失败模式与人类认知难度的显著差异；数据集包含41道题目的严格交集集和181道题目的并集集，支持不同粒度的评估需求。这种设计使其既能反映真实数学推理挑战，又能有效检测模型能力边界扩展。

使用方法

研究者可遵循标准化评估流程使用该数据集：首先在MATH-B的特定模型划分上评估基础模型的pass@1024性能（预期接近零），接着应用关注的强化学习方法进行后训练，最后重新评估后训练策略的pass@1024性能。根据第2章定义的评估框架，此时通过率即直接等于扩展率，为模型能力边界扩展提供明确量化指标。该基准专为驱动超越基础模型推理边界的研究设计，建议配合模型特定划分进行针对性分析。

背景与挑战

背景概述

随着DeepSeek-R1等模型的出现，强化学习在数学推理领域展现出新的潜力。然而开源生态系统存在显著局限：现有基准测试如MATH-500和AIME 2024在大量采样（如pass@1024）下已被基础模型近乎完全解决。为突破这一瓶颈，图宾根大学与马克斯·普朗克智能系统研究所的研究团队于2025年提出MATH-Beyond基准，通过从DAPO-Math-17K和DeepScaleR数据集中筛选出41个交集问题和181个并集问题，构建了主题等效于标准高中数学但能有效检验模型能力边界的评估体系。该数据集推动强化学习从现有解决方案的优化转向真正探索新推理模式的研究方向。

当前挑战

该数据集致力于解决数学推理领域模型能力边界扩展的核心挑战：现有强化学习方法仅能优化基础模型已掌握的解题模式，无法突破其固有推理边界。在构建过程中面临三重技术难点：首先需通过多阶段过滤流程从五万余候选问题中精准识别基础模型无法解决的问题；其次需设计抗干扰的验证逻辑以规避七类常见规则验证失效模式；最后需协调超过两万A100 GPU小时的计算资源，对11个基础模型和10个补充模型进行大规模评估，确保基准问题的统计显著性和评估可靠性。

常用场景

经典使用场景

在数学推理研究领域，MATH-Beyond数据集主要作为评估强化学习方法能否超越基础模型推理边界的基准工具。该数据集通过精心筛选那些即使在1024次采样预算下仍无法被开源基础模型解决的数学问题，为研究者提供了一个衡量模型能力真实扩展的测试平台。研究人员通常使用该数据集来验证新型强化学习算法是否能够引导模型发现全新的解题路径，而非仅仅优化已有的推理模式。

实际应用

在实际应用层面，MATH-Beyond为开发更强大的数学推理系统提供了关键评估标准。教育科技公司可利用该基准测试其智能辅导系统的推理能力边界，确保系统能够处理超出常规范围的数学问题。研究机构则将其作为开发新型强化学习算法的试金石，推动探索性学习方法的发展。该数据集还能帮助识别当前推理系统的薄弱环节，为改进数学问题求解算法提供明确方向。

衍生相关工作

基于MATH-Beyond数据集，研究社区已衍生出多个重要研究方向。Wu等人提出的扩展率评估框架为该数据集的应用奠定了理论基础，使得边界扩展的量化成为可能。Nemotron-Research-Reasoning和DeepScaleR等强化学习模型在该基准上的表现分析，揭示了当前方法在探索能力方面的局限性。同时，该数据集启发了对验证流程系统故障模式的研究，推动了数学答案验证方法的改进，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集