UGMathBench

github2025-02-19 更新2025-02-20 收录

下载链接：

https://github.com/YangLabHKUST/UGMathBench

下载链接

链接失效反馈

官方服务：

资源简介：

UGMathBench是一个多样化的动态基准测试，专门设计用于评估大语言模型在大学生级别数学推理上的表现。UGMathBench包含5,062个问题，涵盖16个学科和111个主题，具有10种不同的答案类型。每个问题包括三个随机版本。

UGMathBench is a diverse dynamic benchmark specifically designed to evaluate the performance of large language models in undergraduate-level mathematical reasoning. It encompasses 5,062 questions across 16 disciplines and 111 topics, featuring 10 different types of answer options. Each question includes three randomized versions.

创建时间：

2025-02-07

原始信息汇总

UGMathBench 数据集概述

数据集简介

UGMathBench 是一个专为评估大型语言模型（LLMs）在本科水平数学推理能力上的多样化和动态化基准数据集。

数据集构成

问题数量：5,062 个问题
学科分类：16 个学科
主题分类：111 个主题
答案类型：10 种不同的答案类型
问题版本：每个问题包括三个随机化版本

数据集特点

设计用于评估 LLMs 在本科水平数学推理的能力
提供基于规则的方法和混合方法（MARJ）的评估脚本

使用指南

数据下载： bash git clone https://huggingface.co/datasets/UGMathBench/ugmathbench mv ugmathbench/data/* ./data/
模型测试：
- 封闭源 LLMs： bash python generate_close.py --model $model ${MODEL} --subject ${SUBJECT} --prompt raw --nproc 16
- 开源 LLMs： bash python generate_open.py --model_path ${MODEL} --subject ${SUBJECT} --prompt llama3math --tensor_parallel_size 4
评估方法：
- 规则方法： bash python eval_rule.py --model_path ${MODEL} --subject ${SUBJECT}
- 混合方法： bash python eval_marj.py --model_path ${MODEL} --subject ${SUBJECT}

引用信息

@article{xu2025ugmathbench, title={UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models}, author={Xu, Xin and Zhang, Jiaxin and Chen, Tianhao and Chao, Zitong and Hu, Jishan and Yang, Can}, journal={arXiv preprint arXiv:2501.13766}, year={2025} }

搜集汇总

数据集介绍

构建方式

UGMathBench数据集的构建，旨在评价大型语言模型在本科水平数学推理上的表现。该数据集涵盖了16个学科领域的5062个问题，并细分为111个子主题，每个问题有三个随机版本，以增强评估的全面性和动态性。

特点

该数据集的一大特点是问题类型的多样性，包含10种不同的答案类型，充分满足了数学推理评估的复杂性需求。同时，数据集支持基于规则的方法和混合方法（MARJ）进行评估，提升了评估的灵活性和适应性。

使用方法

用户可以通过Huggingface平台下载UGMathBench数据集。使用时，需要设置相应的环境变量，并根据模型类型选择适当的推断和评估脚本。对于闭源模型和开源模型，分别提供了不同的推断脚本，同时支持规则基础和混合方法的评估方式。

背景与挑战

背景概述

UGMathBench数据集，作为评估大语言模型（LLM）在本科级别数理逻辑推理能力的一个多样化动态基准，由Xu Xin等研究人员于2025年设计并提出。该数据集涵盖了16个学科领域的5,062个问题，分为111个主题，并具有10种不同的答案类型，每个问题均有三个随机版本，以增强评估的全面性和准确性。UGMathBench的创建旨在推动数学教育领域的发展，对大型语言模型在数学推理任务上的性能进行量化评估，其成果已发表于ICLR 2025，并受到了广泛关注。

当前挑战

数据集在构建过程中遇到了多项挑战，首先是在保证问题质量和多样性的同时，确保每个问题都能准确反映本科水平的数学推理能力。其次，传统基于规则的方法在评估LLM生成的答案时存在局限性，为此数据集提供了混合评估方法（MARJ），该方法结合了模型基础的灵活性与规则基础的精确性。此外，数据集的实用性和广泛性也面临挑战，需要不断更新和完善，以适应不断进步的数学教育和大语言模型技术的发展。

常用场景

经典使用场景

UGMathBench作为评估大型语言模型在本科级别数学科目上推理能力的一个多样化且动态的基准，其经典的使用场景在于对大型语言模型（LLM）进行数学问题的解答能力测试。该数据集提供了跨越16个科目、111个主题的5062个问题，覆盖了10种不同的答案类型，为模型的数学推理性能评估提供了全面的测试案例。

衍生相关工作

基于UGMathBench，研究者们可以开展一系列相关的工作，如开发新的评估方法、模型优化策略以及探索LLM在数学教育中的具体应用。例如，已有工作UGPhysics便是受到了UGMathBench的启发，进一步研究了物理学科中的模型评估问题。

数据集最近研究