MATH-Perturb

Name: MATH-Perturb
Creator: 普林斯顿大学，谷歌
Published: 2025-02-13 07:16:27
License: 暂无描述

arXiv2025-02-13 更新2025-02-26 收录

下载链接：

http://arxiv.org/abs/2502.06453v2

下载链接

链接失效反馈

官方服务：

资源简介：

MATH-Perturb数据集是由普林斯顿大学和谷歌的研究人员构建的，包含279个经过简单扰动和困难扰动的数学问题，这些问题源自MATH数据集的第五难度级别（最难的问题）。数据集通过12位具有强大数学背景的博士生进行注释和交叉验证，确保了质量。该数据集旨在评估大型语言模型在数学推理任务中的鲁棒性，特别是面对问题公式的基本变化时的表现。

The MATH-Perturb dataset was constructed by researchers from Princeton University and Google. It contains 279 math problems with both simple and difficult perturbations, which are derived from the 5th difficulty level (the hardest problems) of the MATH dataset. The dataset was annotated and cross-validated by 12 doctoral candidates with strong mathematical backgrounds to ensure its quality. This dataset aims to evaluate the robustness of large language models (LLMs) in mathematical reasoning tasks, particularly their performance when facing fundamental changes to problem formulations.

提供机构：

普林斯顿大学，谷歌

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

MATH-Perturb数据集的构建旨在探索大型语言模型（LLMs）在解决数学推理任务时的真正推理能力。为了区分模型是基于推理还是记忆来解决问题，研究者们创建了两个子数据集：MATH-P-Simple和MATH-P-Hard。这两个子数据集分别通过简单扰动和困难扰动的方式，从MATH数据集中选取了279个难度为5级（最困难）的数学问题进行修改。简单扰动是指对问题进行非本质的修改，使得修改后的问题仍然可以使用与原始问题相同的方法来解决；而困难扰动则是通过改变问题的基本性质，使得原始的解题步骤不再适用。这两个数据集由12位具有丰富数学背景的专家进行标注和审核，以确保数据的质量和难度。

使用方法

使用MATH-Perturb数据集的方法主要是通过评估模型在解决简单扰动和困难扰动问题上的表现来衡量其推理能力。研究者们采用了零样本思维链（CoT）方法作为标准评估方法，并在数据集上评估了18个LLMs。结果显示，所有模型在解决困难扰动问题上的表现都有显著下降，这表明这些模型倾向于原始的推理模式，在面对困难扰动问题时会出现分布外效应。此外，研究者们还发现了一种新的记忆形式，即模型记忆了训练集中的解题技巧，并在没有判断修改后的设置是否仍然适用的情况下盲目应用这些技巧。最后，研究者们还探讨了使用原始问题和解决方案进行上下文学习的影响，发现这可能会对模型在解决困难扰动问题上的表现产生负面影响。

背景与挑战

背景概述

随着大型语言模型在解决挑战性的数学推理任务方面表现出色，研究者们开始质疑这些模型是否真正具备了推理能力，还是仅仅通过记忆实现了这些性能。为了探究这一问题，Huang等人（2025）提出了MATH-Perturb数据集，该数据集通过简单扰动和困难扰动两种方式，分别构建了MATH-P-Simple和MATH-P-Hard两个子集。每个子集包含从MATH数据集中选取的279个数学问题的扰动版本。研究结果表明，在MATH-P-Hard子集上，各种模型（如o1-mini和gemini-2.0flash-thinking）的性能都有显著下降，这表明这些模型可能对原始推理模式存在依赖，并且在面对困难扰动时表现出泛化能力的不足。MATH-Perturb数据集的提出对于发展更加鲁棒和可靠的推理模型具有重要意义。

当前挑战

MATH-Perturb数据集的挑战主要包括两个方面：1) 所解决的领域问题是大型语言模型在数学推理任务上的泛化能力，尤其是在面对困难扰动时的表现；2) 构建过程中遇到的挑战，包括如何设计扰动策略以确保扰动后的问题既能够测试模型的泛化能力，又能够避免由于过度简化问题而导致的模型性能下降。此外，研究还发现了一种新的记忆形式，即模型可能会盲目地应用训练集中学习到的解题技巧，而忽略了这些技巧是否适用于修改后的情境。这种问题在使用原始问题进行上下文学习时尤为突出。

常用场景

经典使用场景

MATH-Perturb 数据集被设计用来评估大型语言模型（LLMs）在数学推理任务上的能力，尤其是在面对问题表述的根本性变化时的表现。该数据集通过两种方式扰动 MATH 数据集中的难题，一种是简单扰动，另一种是硬扰动。简单扰动的问题仍然可以使用与原始问题相同的解题方法，而硬扰动的问题则需要更深入的数学理解和更复杂的解题技能。MATH-Perturb 数据集被广泛用于测试和比较不同 LLMs 在处理数学问题时的鲁棒性和泛化能力，尤其是在面对非标准问题表述时的表现。

解决学术问题

MATH-Perturb 数据集解决了大型语言模型在数学推理任务中可能存在的记忆性问题。研究发现在面对硬扰动的问题时，即使是性能表现最好的模型也会出现显著的性能下降。这表明，模型可能只是简单地记忆了解题技巧，而没有真正理解背后的数学原理。MATH-Perturb 数据集揭示了这种新型记忆现象，即模型在未判断修改后的设置是否仍然适用的情况下，盲目地应用从训练集中学习到的解题技巧。这对于开发更鲁棒、更可靠的推理模型具有重要意义。

实际应用

MATH-Perturb 数据集的实际应用场景包括教育、研究和技术开发。在教育领域，该数据集可以用于评估学生在解决数学问题时的能力，并提供个性化的学习建议。在研究领域，该数据集可以用于开发新的数学推理模型和算法，并提高模型的鲁棒性和泛化能力。在技术开发领域，该数据集可以用于开发智能助手和问答系统，以帮助用户解决实际问题。

数据集最近研究