five

VAR-MATH, VAR-AMC23, VAR-AIME24

收藏
arXiv2025-07-17 更新2025-07-19 收录
下载链接:
https://github.com/nigelyaoj/VAR-MATH
下载链接
链接失效反馈
官方服务:
资源简介:
VAR-MATH是一个符号化评估框架,旨在探索大型语言模型的真实推理能力。通过将固定数值问题转换为符号模板,并要求模型解决每个模板的多个实例,VAR-MATH强制执行结构等效变体之间的一致推理,从而减少数据泄露并提高评估鲁棒性。该框架应用于AMC23和AIME24两个流行基准,生成其符号化版本VAR-AMC23和VAR-AIME24。实验结果表明,RL训练模型在变体版本上的性能大幅下降,这表明现有RL方法依赖于表面的启发式方法,无法超越特定的数值形式。

VAR-MATH is a symbolic evaluation framework designed to explore the genuine reasoning capabilities of large language models (LLMs). By converting fixed numerical problems into symbolic templates and requiring models to solve multiple instances of each template, VAR-MATH enforces consistent reasoning across structurally equivalent variants, thereby reducing data leakage and enhancing evaluation robustness. This framework is applied to two popular benchmarks, AMC23 and AIME24, to generate their symbolic versions: VAR-AMC23 and VAR-AIME24. Experimental results show that reinforcement learning (RL)-trained models experience a significant performance drop on these variant versions, indicating that existing RL methods rely on superficial heuristics and cannot transcend specific numerical forms.
提供机构:
香港理工大学数据科学和人工智能系
创建时间:
2025-07-17
原始信息汇总

VAR-MATH数据集概述

数据集简介

VAR-MATH是一个用于评估大语言模型真实数学推理能力的符号化多实例基准测试数据集。通过将数学问题中的固定常量替换为变量并定义可行采样范围,创建具有相同底层结构但不同具体数值的多个问题实例,以测试模型的泛化能力和推理一致性。

核心发现

  1. RL增强的假象

    • RL训练带来的数学推理改进具有误导性
    • 去除基准特定模式后模型性能出现灾难性下降
  2. 污染-推理双重困境

    • 数据污染人为夸大了基准性能
    • 符号处理存在固有缺陷,无法实现一致泛化

评估结果

7B模型表现

模型 AMC23 VAR-AMC23 下降幅度 AIME24 VAR-AIME24 下降幅度
Qwen2.5-MATH-7B 36.9 2.5 93.2% 10.8 3.3 69.3%
Eurus-2-7B-PRIME 58.3 29.1 50.1% 15.8 4.4 72.3%

32B模型表现

模型 AMC23 VAR-AMC23 下降幅度 AIME24 VAR-AIME24 下降幅度
Qwen2.5-32B 33.4 2.5 92.5% 8.8 2.5 71.4%
DAPO-Qwen-32B 92.3 69.7 24.5% 51.7 30.6 40.7%

数据构建流程

  1. 预处理阶段

    • 数学问题符号化抽象
    • 定义变量采样范围
    • 答案表示为参数化函数
  2. 评估阶段

    • 从定义范围采样生成具体实例
    • 要求模型给出所有正确答案

使用说明

环境配置

bash conda create -n VAR-MATH python==3.9.0 conda activate VAR-MATH cd latex2sympy pip install -e . cd .. pip install -r requirements.txt

评估流程

  1. 生成VAR-Math数据 bash python csv2json.py

  2. 运行评估 bash sh eval_local_7b.sh # 7B模型 sh eval_local_32b.sh # 32B模型 sh eval_api.sh # API评估

  3. 结果收集 bash python VAR_score_pass_1/score_analysis.py # 大规模模型 python VAR_score_pass_16/score_analysis.py # 7B/32B模型

引用信息

bibtex @article{varmath2025, title={VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks}, author={Yao, Jian and Cheng, Ran and Tan, Kay Chen}, journal={arXiv preprint arXiv:2507.12885}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
VAR-MATH数据集通过符号化多实例验证框架构建,旨在评估大型语言模型在数学推理任务中的真实能力。该框架将传统数学问题中的固定数值转换为符号模板,通过替换常量为变量并定义可行采样范围,生成多个结构等效但数值不同的实例。每个问题的正确答案被表达为变量的函数形式,模型需对所有实例给出正确解答才能通过评估。这种构建方式有效解耦了问题结构与具体数值,从根本上解决了传统评估中存在的记忆效应和单实例脆弱性问题。
特点
VAR-MATH数据集最显著的特点是采用符号化抽象与多实例验证相结合的评估范式。其核心创新在于通过参数化模板生成问题变体,要求模型展现跨实例的结构化推理一致性。数据集包含AMC23和AIME24两个竞赛级数学基准的符号化版本,每个问题配备完整的元数据规范,包括变量定义域、舍入精度和参数化解答表达式。这种设计使得评估过程能够有效区分真正的数学理解能力与表面模式匹配,为衡量模型的泛化性能提供了可靠标准。
使用方法
使用VAR-MATH数据集时需遵循严格的两阶段协议:首先根据符号模板随机采样生成多个具体实例,然后要求模型对所有实例给出正确解答。评估采用全有或全无的计分策略,只有当模型在某个问题的所有变体上都表现正确时才计分。研究建议每个符号问题生成5个实例,使用温度参数0.6的采样设置,并通过16次重复计算平均准确率。该数据集支持与原始数值基准的对比研究,特别适用于分析RL训练模型在符号推理一致性方面的表现。
背景与挑战
背景概述
VAR-MATH数据集由香港理工大学的数据科学与人工智能系的研究人员Jian Yao、Ran Cheng和Kay Chen Tan于2025年创建,旨在解决大型语言模型(LLMs)在数学推理任务中存在的评估偏差问题。该数据集通过将传统的固定数值问题转化为符号化模板,构建了VAR-AMC23和VAR-AIME24两个变体,以探究模型是否真正掌握了数学推理能力,而非仅仅记忆或利用数据集中的特定模式。VAR-MATH的提出为数学推理领域提供了一种新的、抗污染的评估范式,显著提升了评估的鲁棒性和可靠性。
当前挑战
VAR-MATH数据集面临的挑战主要包括两个方面:其一,在领域问题层面,传统的数学推理评估容易受到数据污染和单实例评估脆弱性的影响,导致模型可能通过记忆或浅层启发式方法获得高分,而非真正的推理能力;其二,在构建过程中,如何将固定数值问题有效转化为符号化模板,并确保生成的多个实例在结构上等价但在数值上多样化,是一个技术难点。此外,还需解决符号化参数的定义、可行采样范围的确定以及参数化答案的表达等问题,以确保评估的准确性和一致性。
常用场景
经典使用场景
VAR-MATH数据集在评估大型语言模型(LLMs)的数学推理能力方面具有经典的应用场景。通过将固定数值问题转化为符号化模板,并要求模型解决多个结构相同的变体,VAR-MATH能够有效检测模型是否真正掌握了问题的数学结构,而非仅仅依赖记忆或表面模式匹配。这一方法特别适用于数学竞赛类问题,如AMC23和AIME24,其中问题的多样性和复杂性要求模型具备深层次的推理能力。
实际应用
在实际应用中,VAR-MATH为开发更鲁棒的数学推理模型提供了重要工具。教育科技公司可以利用该数据集评估其模型在多样化数学问题上的表现,确保模型能够适应不同难度和形式的题目。此外,该数据集还可用于模型训练中的自我评估,帮助开发者识别和修正模型在符号推理方面的不足,从而提升模型在实际教育场景中的实用性。
衍生相关工作
VAR-MATH的推出激发了多项相关研究,尤其是在符号推理和评估鲁棒性方面。例如,一些研究开始探索如何将符号化多实例验证应用于其他领域,如程序合成和形式逻辑。此外,该数据集还促进了针对模型泛化能力的新训练方法,如多样性感知的策略优化和高熵标记驱动的强化学习,这些方法旨在提升模型在符号化变体上的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作