UGMathBench
收藏arXiv2025-01-23 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2501.13766v1
下载链接
链接失效反馈官方服务:
资源简介:
UGMathBench是由香港科技大学数学系创建的一个多样化和动态的基准测试集,旨在评估大型语言模型(LLMs)在本科水平数学推理中的表现。该数据集包含5062个问题,涵盖16个学科和111个主题,具有10种不同的答案类型。每个问题包含三个随机化版本,以评估模型的推理鲁棒性。数据集来源于该机构的在线作业评分系统,经过数据收集、清理和去重等步骤生成。UGMathBench的应用领域主要是评估和改进LLMs在解决复杂数学问题中的推理能力,旨在解决现有基准测试集在覆盖范围和动态性方面的不足。
UGMathBench is a diverse and dynamic benchmark dataset created by the Department of Mathematics of The Hong Kong University of Science and Technology, designed to evaluate the performance of Large Language Models (LLMs) in undergraduate-level mathematical reasoning. This dataset contains 5,062 questions covering 16 disciplines and 111 topics, with 10 distinct answer types. Each question includes three randomized versions to assess the reasoning robustness of models. The dataset is derived from the institution's online homework grading system, and generated through processes including data collection, cleaning and deduplication. The main application fields of UGMathBench are evaluating and improving the reasoning abilities of LLMs when solving complex mathematical problems, aiming to address the shortcomings of existing benchmark datasets in terms of coverage and dynamism.
提供机构:
香港科技大学数学系
创建时间:
2025-01-23
搜集汇总
数据集介绍

构建方式
UGMathBench数据集是通过从香港科技大学数学系在线作业评分系统中收集、清洗和格式化大学本科级别的数学问题构建的。该数据集包含5062个问题,涵盖16个学科和111个主题,具有10种不同的答案类型。每个问题包括三个随机版本,随着主流开源LLM在UGMathBench中达到饱和,还将发布更多版本。
特点
UGMathBench数据集具有多样性和动态性,专为评估LLM在大学本科级别的数学推理能力而设计。它包含大量的问题和主题,以及多种答案类型,使LLM能够解决各种数学问题。此外,每个问题都有多个随机版本,这有助于评估LLM的真实推理能力。
使用方法
UGMathBench数据集可用于评估LLM在大学本科级别的数学推理能力。研究人员可以使用数据集中的问题来测试LLM的性能,并使用提供的评估指标(如有效准确率EAcc和推理差距Δ)来衡量LLM的真实推理能力。此外,数据集还包括详细的评估代码,可供研究人员参考和使用。
背景与挑战
背景概述
数学推理与问题解决是人类智能的关键组成部分,机器理解和解决数学挑战的能力对于其部署至关重要。随着大型语言模型(LLMs)的兴起,研究人员开始探索使用LLMs解决数学问题的方法,包括提示、监督微调和持续预训练等。然而,现有的基准往往存在不足,要么缺乏对本科水平数学问题的广泛覆盖,要么可能存在测试集污染。为了解决这些问题,Xin Xu等人于2025年在ICLR会议上发表了论文,介绍了UGMathBench,一个专门为评估LLMs本科水平数学推理能力而设计的多样性和动态基准。UGMathBench包含了5,062个问题,涵盖16个学科和111个主题,具有10种不同的答案类型。每个问题包括三个随机版本,并计划随着领先的开放源码LLMs在UGMathBench中达到饱和时发布更多版本。此外,论文提出了两个关键指标:有效准确率(EAcc)和推理差距(∆),以评估LLMs的数学推理能力。对23个领先的LLMs的广泛评估表明,OpenAI-o1-mini实现了最高的EAcc,达到56.3%,并且所有模型都表现出较大的∆值。这突出了未来研究开发具有高EAcc和∆=0的“大型推理模型”的必要性。
当前挑战
UGMathBench面临着一些挑战。首先,尽管LLMs在数学推理方面取得了显著进展,但它们在解决具有多个版本的问题时仍然存在不一致性。其次,UGMathBench目前只关注文本推理,而一些本科水平的数学问题可能需要图像来解决。此外,UGMathBench是针对英语设计的基准,扩展到支持多种语言将是一个有趣的研究方向。最后,某些学科的问题数量有限,扩大这些学科将是有价值的。
常用场景
经典使用场景
UGMathBench是一个为评估大型语言模型(LLMs)解决大学本科水平数学问题的推理能力而设计的综合和公平的基准。它涵盖了16个科目和111个主题的5062个问题,并具有10种不同的答案类型。每个问题都有三个随机版本,以评估LLMs的真正推理能力。此外,它还引入了两个关键指标:有效准确率(EAcc)和推理差距(∆),以评估LLMs在解决数学问题时的鲁棒性。
衍生相关工作
UGMathBench的发布衍生了多项相关工作,包括对LLMs在解决数学问题方面的鲁棒性和有效性的进一步研究,以及对测试集污染的缓解方法的探索。此外,它还促进了开发更强大的数学推理模型的研究,以解决UGMathBench提出的高难度挑战。
数据集最近研究
最新研究方向
UGMathBench是一个为评估大型语言模型(LLMs)解决大学级别数学问题的推理能力而设计的多样化和动态的基准测试。该数据集涵盖了16个学科和111个主题,包含5,062个问题,并具有10种不同的答案类型。UGMathBench的关键特性之一是每个问题包含三个随机版本,这有助于评估LLMs的真实推理能力。为了评估LLMs的推理能力,研究者提出了两个关键指标:有效准确率(EAcc)和推理差距(∆)。有效准确率衡量在所有三个版本中正确解决问题的百分比,而推理差距则通过计算所有版本的平均准确率与有效准确率之间的差异来评估推理的鲁棒性。对23个领先LLMs的广泛评估发现,OpenAI-o1-mini实现了最高的EAcc为56.3%,并且观察到不同模型之间存在较大的推理差距。这突出了未来研究开发具有高EAcc和∆=0的“大型推理模型”的必要性。
相关研究论文
- 1UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models香港科技大学数学系 · 2025年
以上内容由遇见数据集搜集并总结生成



