MATH-P-Simple and MATH-P-Hard
收藏github2025-06-01 更新2025-06-03 收录
下载链接:
https://github.com/Kaffaljidhmah2/MATH-Perturb
下载链接
链接失效反馈官方服务:
资源简介:
MATH-P-Simple和MATH-P-Hard数据集位于`math_perturb/`目录下。每个测试集都是一个`jsonl`文件,每行代表一个JSON格式的测试数据点。数据集包含以下字段:`problem_id`(唯一问题ID)、`problem`(问题描述)、`answer`(正确答案)、`level`(难度级别)、`type`(数学问题类别)和`original_split`(原始问题的划分)。数据集仅用于学术研究目的,不得用于训练模型。
The MATH-P-Simple and MATH-P-Hard datasets are located in the `math_perturb/` directory. Each test set is stored as a `jsonl` file, where each line represents a test data point in JSON format. The dataset includes the following fields: `problem_id` (unique problem ID), `problem` (problem description), `answer` (correct answer), `level` (difficulty level), `type` (mathematical problem category), and `original_split` (original problem split). This dataset is solely intended for academic research purposes and must not be used for model training.
创建时间:
2025-05-28
原始信息汇总
MATH-Perturb 数据集概述
数据集简介
- 名称: MATH-Perturb
- 目的: 评估大型语言模型在数学推理能力上对困难扰动(hard perturbations)的表现
- 相关论文: MATH-Perturb: Benchmarking LLMs Math Reasoning Abilities against Hard Perturbations
- 项目页面: MATH-Perturb 项目页
数据集内容
- 包含两个子集:
- MATH-P-Simple
- MATH-P-Hard
- 数据格式: JSONL 文件,每行代表一个测试数据点
- 数据加载方式: python dataset = [json.loads(line) for line in open(filepath)]
数据字段说明
problem_id: 唯一随机问题ID,相同ID的问题源自同一原始问题problem: 问题陈述answer: 问题正确答案level: 问题难度级别(全部为 "Level 5")type: 数学问题类别(如代数、微积分等)original_split: 原始问题所属的数据集划分(train 或 test)
数据集特点
- 来源: 基于MATH数据集(Hendrycks et al., 2021)进行修改
- 修改内容:
- 直接编辑问题陈述
- 为修改后的问题重新计算正确答案
- 确保扰动问题的答案与原始问题不同
- 注意事项:
- 仅包含最终答案,不包含中间步骤
- 禁止用作训练数据
评估方法
- 评估脚本功能:
- 提取
oxed{}中的答案 - 对未格式化的答案字符串进行后处理
- 使用SymPy检查两个LaTeX字符串的等价性
- 提取
- 核心方法: python def answer_check(problem, solution_str, ground_truth, dataset_type): # 检查预测答案是否与真实答案匹配
使用许可
- 许可证: Apache License 2.0
- 使用限制:
- 仅限学术研究用途
- 禁止商业化使用
- 仅可用作测试数据集(基准评估)
- 禁止用于模型训练
引用要求
bibtex @article{huang2025math, title={{MATH-Perturb}: Benchmarking {LLMs} Math Reasoning Abilities against Hard Perturbations}, author={Kaixuan Huang and Jiacheng Guo and Zihao Li and Xiang Ji and Jiawei Ge and Wenzhe Li and Yingqing Guo and Tianle Cai and Hui Yuan and Runzhe Wang and Yue Wu and Ming Yin and Shange Tang and Yangsibo Huang and Chi Jin and Xinyun Chen and Chiyuan Zhang and Mengdi Wang}, journal={arXiv preprint arXiv:2502.06453}, year={2025} }
搜集汇总
数据集介绍

构建方式
MATH-P-Simple和MATH-P-Hard数据集源自对原始MATH数据集的创新性重构,通过直接修改问题陈述的方式生成扰动版本。研究团队针对每个原始数学问题进行了语义保持但答案变化的扰动处理,确保扰动后问题的正确答案与原始问题不同。所有问题均限定于MATH数据集中的最高难度等级(Level 5),涵盖代数、微积分等数学分支,并标注原始问题所属的训练/测试划分。数据集构建过程中,团队独立验证了扰动问题的正确答案,但仅发布最终答案而未公开中间推导步骤。
特点
该数据集的核心价值在于其精心设计的双重扰动体系:MATH-P-Simple提供基础层面的问题扰动,而MATH-P-Hard则呈现更复杂的语义变换。所有问题均采用JSONL格式存储,包含问题ID、题干、标准答案等结构化字段,其中问题ID可追溯同源扰动问题。特别值得注意的是,数据集严格遵循测试基准的伦理规范,所有扰动问题均经过人工验证确保答案变更,且明确禁止用于模型训练场景。这种设计使得该数据集成为评估大语言模型数学推理鲁棒性的理想基准。
使用方法
使用该数据集时需通过标准JSONL解析流程加载,每行数据包含完整的评估要素。评估脚本采用SymPy符号计算库进行LaTeX格式答案的等价性验证,重点检测模型输出中\boxed{}标记内的内容。研究人员可通过调用answer_check方法实现自动化评估,该方法支持对扰动数据集和原始数据集的差异化处理。为保障学术合规性,使用者需严格遵守仅将数据集用于测试评估的约束,所有问题陈述的二次使用需遵循Apache 2.0许可协议。数据集配套的评估体系为数学推理能力的细粒度分析提供了标准化框架。
背景与挑战
背景概述
MATH-P-Simple和MATH-P-Hard数据集是ICML 2025论文《MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations》的核心组成部分,由Kaixuan Huang等研究人员组成的团队开发。该数据集基于Hendrycks等人2021年提出的MATH数据集,通过直接修改问题陈述生成扰动版本,旨在评估大型语言模型在数学推理任务中对复杂扰动的鲁棒性。数据集聚焦于Level 5高难度数学问题,涵盖代数、微积分等多个分支,其创新性在于通过语义扰动构建对抗性样本,为衡量模型真实推理能力提供了新的基准工具。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,传统数学推理评估往往忽略模型对问题表述变化的敏感性,MATH-Perturb通过系统性扰动揭示模型在语义变化场景下的脆弱性;在构建过程中,研究团队需确保扰动后问题与原始问题的答案具有显著差异,同时维持数学逻辑的严谨性,这涉及复杂的语义转换和答案验证工作。此外,数据集的评估框架需精确处理数学表达式的等价性判断,这对符号计算和自然语言处理的结合提出了较高要求。
常用场景
经典使用场景
在数学推理能力评估领域,MATH-P-Simple和MATH-P-Hard数据集被广泛用于测试大型语言模型对扰动数学问题的处理能力。这些数据集通过修改原始数学问题的表述,构建了具有挑战性的测试场景,特别适合评估模型在复杂数学推理任务中的鲁棒性和泛化能力。研究者通常利用这些数据集进行基准测试,以衡量不同模型在代数、微积分等数学领域的表现。
衍生相关工作
基于这些数据集,研究者已经开展了一系列关于数学推理能力评估的重要工作。这些工作包括开发新的评估指标、设计更有效的扰动策略,以及探索模型在数学问题解决中的认知机制。相关研究成果不仅发表在顶级机器学习会议上,也为后续数学推理研究奠定了重要基础。
数据集最近研究
最新研究方向
在数学推理领域,MATH-P-Simple和MATH-P-Hard数据集为评估大型语言模型(LLMs)在复杂扰动下的数学推理能力提供了新的基准。这些数据集通过对原始MATH数据集的问题进行扰动处理,生成了具有不同难度级别的变体,从而能够更全面地测试模型在数学问题理解和解答方面的鲁棒性。当前研究聚焦于如何利用这些数据集来揭示LLMs在处理数学问题时的局限性,尤其是在面对语义扰动和结构变化时的表现。这一研究方向不仅推动了数学推理评估方法的发展,也为提升模型的泛化能力和适应性提供了重要参考。相关热点包括ICML 2025会议上关于数学推理能力的讨论,以及如何将这些评估方法应用于实际教育和技术开发中。
以上内容由遇见数据集搜集并总结生成



