VAR-MATH, VAR-AMC23, VAR-AIME24
收藏VAR-MATH数据集概述
数据集简介
VAR-MATH是一个用于评估大语言模型真实数学推理能力的符号化多实例基准测试数据集。通过将数学问题中的固定常量替换为变量并定义可行采样范围,创建具有相同底层结构但不同具体数值的多个问题实例,以测试模型的泛化能力和推理一致性。
核心发现
-
RL增强的假象
- RL训练带来的数学推理改进具有误导性
- 去除基准特定模式后模型性能出现灾难性下降
-
污染-推理双重困境
- 数据污染人为夸大了基准性能
- 符号处理存在固有缺陷,无法实现一致泛化
评估结果
7B模型表现
| 模型 | AMC23 | VAR-AMC23 | 下降幅度 | AIME24 | VAR-AIME24 | 下降幅度 |
|---|---|---|---|---|---|---|
| Qwen2.5-MATH-7B | 36.9 | 2.5 | 93.2% | 10.8 | 3.3 | 69.3% |
| Eurus-2-7B-PRIME | 58.3 | 29.1 | 50.1% | 15.8 | 4.4 | 72.3% |
32B模型表现
| 模型 | AMC23 | VAR-AMC23 | 下降幅度 | AIME24 | VAR-AIME24 | 下降幅度 |
|---|---|---|---|---|---|---|
| Qwen2.5-32B | 33.4 | 2.5 | 92.5% | 8.8 | 2.5 | 71.4% |
| DAPO-Qwen-32B | 92.3 | 69.7 | 24.5% | 51.7 | 30.6 | 40.7% |
数据构建流程
-
预处理阶段
- 数学问题符号化抽象
- 定义变量采样范围
- 答案表示为参数化函数
-
评估阶段
- 从定义范围采样生成具体实例
- 要求模型给出所有正确答案
使用说明
环境配置
bash conda create -n VAR-MATH python==3.9.0 conda activate VAR-MATH cd latex2sympy pip install -e . cd .. pip install -r requirements.txt
评估流程
-
生成VAR-Math数据 bash python csv2json.py
-
运行评估 bash sh eval_local_7b.sh # 7B模型 sh eval_local_32b.sh # 32B模型 sh eval_api.sh # API评估
-
结果收集 bash python VAR_score_pass_1/score_analysis.py # 大规模模型 python VAR_score_pass_16/score_analysis.py # 7B/32B模型
引用信息
bibtex @article{varmath2025, title={VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks}, author={Yao, Jian and Cheng, Ran and Tan, Kay Chen}, journal={arXiv preprint arXiv:2507.12885}, year={2025} }




