ExtremBench

Name: ExtremBench
Creator: 马里兰大学, 复旦大学
Published: 2025-10-15 05:23:37
License: 暂无描述

arXiv2025-10-15 更新2025-10-17 收录

下载链接：

https://github.com/huggingface/Math-Verify

下载链接

链接失效反馈

官方服务：

资源简介：

ExtremBench是一个包含93个数学极值问题的基准数据集，由用于中国数学奥林匹克的不等式练习转换而来。该数据集旨在评估大型语言模型（LLMs）解决数学极值问题的能力，这些问题需要识别约束边界、理解竞争目标之间的权衡，并识别何时在临界点或边界上出现最优解。

ExtremBench is a benchmark dataset comprising 93 mathematical extremal problems, derived from inequality practice materials utilized for the China Mathematics Olympiad. This dataset aims to evaluate the capability of Large Language Models (LLMs) in solving mathematical extremal problems, which require recognizing constraint boundaries, comprehending trade-offs between competing objectives, and identifying when optimal solutions arise at critical points or boundaries.

提供机构：

马里兰大学, 复旦大学

创建时间：

2025-10-15

原始信息汇总

Math-Verify 数据集概述

数据集基本信息

名称: Math-Verify
类型: 数学表达式评估系统
用途: 评估大型语言模型在数学任务中的输出

性能表现

在MATH数据集上的评估准确率对比：

评估器	得分
Harness	0.0802
Qwen	0.1288
Math-Verify	0.1328

安装要求

支持以下antlr4运行时版本：

antlr4-python3-runtime==4.13.2
antlr4-python3-runtime==4.11.0
antlr4-python3-runtime==4.9.3

安装命令： bash pip install math-verify[antlr4_13_2]

核心功能

提取目标配置

LatexExtractionConfig - 提取LaTeX表达式
ExprExtractionConfig - 提取纯数学表达式
StringExtractionConfig - 提取字面字符串

主要特性

鲁棒的答案提取：支持多种提取策略，格式无关的答案检索
高级解析能力：
- 完整的集合论支持
- Unicode符号替换
- LaTeX修复功能
- 方程和不等式解析
- 百分比转换
- 单位处理
- 精确的输入表达式表示
智能表达式比较：
- 数值和符号比较支持
- 精确的数值比较
- 矩阵表达式等价验证
- 集合和区间比较
- 关系评估

使用方式

基础使用

python from math_verify import parse, verify gold = parse("${1,3} \cup {2,4}$") answer = parse("${1,2,3,4}$") verify(gold, answer)

高级使用

评估模型输出：python evaluate_model_outputs.py
端到端模型评估：python evaluate_model.py
答案提取：python extract_answers.py

支持的数据集

MATH-Hard
MATH-500
GSM8K
AMC23
AIME24

架构设计

采用三步算法：

答案提取：从模型输出中检索答案
表达式转换：转换为通用表示（SymPy）
答案比较：与标准答案进行比较

注意事项

verify函数在区间与不等式、数字与解链情况下不对称
LaTeX表达式必须放在LaTeX环境中才能解析
推荐在预测时同时使用LatexExtractionConfig和ExprExtractionConfig
不推荐混合使用StringExtractionConfig与其他配置

推荐配置

对于简单数字：使用ExprExtractionConfig()
对于LaTeX：使用LatexExtractionConfig()
对于多选题字符串：使用StringExtractionConfig()
预测时推荐设置boxed_match_priority为0

搜集汇总

数据集介绍

构建方式

在数学推理评估领域，ExtremBench数据集的构建采用了创新性的问题转换方法。该数据集源自中国数学奥林匹克竞赛中的不等式证明题，通过系统化重构将原有的证明形式转化为极值求解任务。具体而言，研究团队运用大型语言模型对原始中文题目进行精准翻译，并采用标准化提示模板将不等式证明问题统一转化为“在给定约束条件下求目标函数极值”的优化问题格式。经过人工严格验证，最终从100道原始题目中筛选出93道符合数学等价性要求的极值问题，形成具有高度规范性的评估数据集。

特点

该数据集在数学推理基准中展现出独特的专业特性。其核心价值在于将传统难以验证的不等式证明转化为可通过数值验证的极值问题，既保持了原问题的数学复杂度与推理挑战性，又实现了自动化评估的可行性。数据集包含62个最小化问题和31个最大化问题，全面覆盖了约束优化中的典型场景。相较于通用数学基准，ExtremBench专门针对极值推理能力设计，能够有效检验模型在约束边界识别、目标权衡分析等优化核心技能上的表现，为评估语言模型的数学推理能力提供了新的维度。

使用方法

在实验应用层面，该数据集为系统评估语言模型的极值求解能力提供了标准化框架。研究人员可采用链式思维提示等推理增强技术，引导模型逐步推导约束条件下的最优解。评估过程中需确保模型输出包含完整的推理路径和最终数值答案，便于通过自动化验证工具进行准确性检验。数据集支持对不同规模、不同架构的模型进行横向比较，特别适用于探究模型在优化推理这一特定数学能力上的表现差异，为理解语言模型的数学推理机制提供了重要实验平台。

背景与挑战

背景概述

随着大语言模型在数学推理领域的快速发展，测试时扩展技术通过链式思维推理显著提升了模型解决复杂问题的能力。2025年，马里兰大学与复旦大学联合团队创建了ExtremBench数据集，聚焦于数学极值问题的系统性评估。该数据集源自中国数学奥林匹克竞赛中的不等式证明题，通过自动化转换流程将其重构为93个标准化极值求解问题，旨在填补现有数学基准在优化推理能力评估方面的空白。这一创新工作为理解大语言模型在约束条件下寻找极值的核心能力提供了首个专门化评估框架，对规划、资源分配等实际应用领域具有重要理论价值。

当前挑战

ExtremBench主要应对两大挑战：在领域问题层面，传统数学基准如MATH-500和AIME主要关注代数运算与算术计算，未能有效评估模型在约束边界识别、多目标权衡及临界点判断等优化推理核心能力；在构建过程中，需将原始不等式证明转化为数值可验证的极值问题，同时保持数学严谨性与逻辑等价性，该过程涉及自然语言处理、数学公式规范化及跨语言转换等多重技术难题，最终从100个原始问题中筛选出93个符合严格数学标准的优化任务。

常用场景

经典使用场景

在数学推理领域，ExtremBench数据集专为评估大语言模型在极值问题求解中的能力而设计。该数据集将中国数学奥林匹克竞赛中的不等式证明题转化为标准化的极值寻找任务，要求模型在给定约束条件下识别目标函数的最大值或最小值。通过这种转化，数据集保留了原始问题的数学复杂性和推理挑战，同时提供了可自动验证的答案格式，使得模型能够系统地展示其在优化推理方面的表现。

解决学术问题

ExtremBench解决了当前数学基准测试中极值推理能力评估不足的学术问题。传统基准如AIME25和MATH-500主要关注代数运算和算术计算，而极值问题需要独特的推理技能，包括约束边界识别、目标权衡分析以及临界点判断。该数据集的引入填补了这一空白，揭示了模型在一般数学推理与优化推理能力之间的不一致性，推动了更全面的数学智能评估框架的发展。

衍生相关工作

ExtremBench的构建方法论启发了多项衍生研究，例如将难以验证的数学证明转化为数值可验证格式的范式可扩展至组合数学、几何和分析等领域。相关经典工作包括CombiBench对组合数学的评估、OptiBench对优化建模的基准测试，以及LLMOPT框架从自然语言描述生成优化模型的研究。这些工作共同推动了对大语言模型特定数学推理能力的深入探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集