UGMathBench
收藏UGMathBench 数据集概述
数据集简介
UGMathBench 是一个专为评估大型语言模型(LLMs)在本科水平数学推理能力上的多样化和动态化基准数据集。
数据集构成
- 问题数量:5,062 个问题
- 学科分类:16 个学科
- 主题分类:111 个主题
- 答案类型:10 种不同的答案类型
- 问题版本:每个问题包括三个随机化版本
数据集特点
- 设计用于评估 LLMs 在本科水平数学推理的能力
- 提供基于规则的方法和混合方法(MARJ)的评估脚本
使用指南
-
数据下载: bash git clone https://huggingface.co/datasets/UGMathBench/ugmathbench mv ugmathbench/data/* ./data/
-
模型测试:
-
封闭源 LLMs: bash python generate_close.py --model $model ${MODEL} --subject ${SUBJECT} --prompt raw --nproc 16
-
开源 LLMs: bash python generate_open.py --model_path ${MODEL} --subject ${SUBJECT} --prompt llama3math --tensor_parallel_size 4
-
-
评估方法:
-
规则方法: bash python eval_rule.py --model_path ${MODEL} --subject ${SUBJECT}
-
混合方法: bash python eval_marj.py --model_path ${MODEL} --subject ${SUBJECT}
-
相关链接
- 论文:UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models
- Huggingface 数据集:UGMathBench
引用信息
@article{xu2025ugmathbench, title={UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models}, author={Xu, Xin and Zhang, Jiaxin and Chen, Tianhao and Chao, Zitong and Hu, Jishan and Yang, Can}, journal={arXiv preprint arXiv:2501.13766}, year={2025} }




