UGMathBench

arXiv2025-01-23 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.13766v1

下载链接

链接失效反馈

资源简介：

UGMathBench是由香港科技大学数学系创建的一个多样化和动态的基准测试集，旨在评估大型语言模型（LLMs）在本科水平数学推理中的表现。该数据集包含5062个问题，涵盖16个学科和111个主题，具有10种不同的答案类型。每个问题包含三个随机化版本，以评估模型的推理鲁棒性。数据集来源于该机构的在线作业评分系统，经过数据收集、清理和去重等步骤生成。UGMathBench的应用领域主要是评估和改进LLMs在解决复杂数学问题中的推理能力，旨在解决现有基准测试集在覆盖范围和动态性方面的不足。

提供机构：

香港科技大学数学系

创建时间：

2025-01-23

AI搜集汇总

数据集介绍

构建方式

UGMathBench数据集是通过从香港科技大学数学系在线作业评分系统中收集、清洗和格式化大学本科级别的数学问题构建的。该数据集包含5062个问题，涵盖16个学科和111个主题，具有10种不同的答案类型。每个问题包括三个随机版本，随着主流开源LLM在UGMathBench中达到饱和，还将发布更多版本。

特点

UGMathBench数据集具有多样性和动态性，专为评估LLM在大学本科级别的数学推理能力而设计。它包含大量的问题和主题，以及多种答案类型，使LLM能够解决各种数学问题。此外，每个问题都有多个随机版本，这有助于评估LLM的真实推理能力。

使用方法

UGMathBench数据集可用于评估LLM在大学本科级别的数学推理能力。研究人员可以使用数据集中的问题来测试LLM的性能，并使用提供的评估指标（如有效准确率EAcc和推理差距Δ）来衡量LLM的真实推理能力。此外，数据集还包括详细的评估代码，可供研究人员参考和使用。

背景与挑战

背景概述

数学推理与问题解决是人类智能的关键组成部分，机器理解和解决数学挑战的能力对于其部署至关重要。随着大型语言模型（LLMs）的兴起，研究人员开始探索使用LLMs解决数学问题的方法，包括提示、监督微调和持续预训练等。然而，现有的基准往往存在不足，要么缺乏对本科水平数学问题的广泛覆盖，要么可能存在测试集污染。为了解决这些问题，Xin Xu等人于2025年在ICLR会议上发表了论文，介绍了UGMathBench，一个专门为评估LLMs本科水平数学推理能力而设计的多样性和动态基准。UGMathBench包含了5,062个问题，涵盖16个学科和111个主题，具有10种不同的答案类型。每个问题包括三个随机版本，并计划随着领先的开放源码LLMs在UGMathBench中达到饱和时发布更多版本。此外，论文提出了两个关键指标：有效准确率（EAcc）和推理差距（∆），以评估LLMs的数学推理能力。对23个领先的LLMs的广泛评估表明，OpenAI-o1-mini实现了最高的EAcc，达到56.3%，并且所有模型都表现出较大的∆值。这突出了未来研究开发具有高EAcc和∆=0的“大型推理模型”的必要性。

当前挑战

UGMathBench面临着一些挑战。首先，尽管LLMs在数学推理方面取得了显著进展，但它们在解决具有多个版本的问题时仍然存在不一致性。其次，UGMathBench目前只关注文本推理，而一些本科水平的数学问题可能需要图像来解决。此外，UGMathBench是针对英语设计的基准，扩展到支持多种语言将是一个有趣的研究方向。最后，某些学科的问题数量有限，扩大这些学科将是有价值的。

常用场景

经典使用场景

UGMathBench是一个为评估大型语言模型（LLMs）解决大学本科水平数学问题的推理能力而设计的综合和公平的基准。它涵盖了16个科目和111个主题的5062个问题，并具有10种不同的答案类型。每个问题都有三个随机版本，以评估LLMs的真正推理能力。此外，它还引入了两个关键指标：有效准确率（EAcc）和推理差距（∆），以评估LLMs在解决数学问题时的鲁棒性。

衍生相关工作

UGMathBench的发布衍生了多项相关工作，包括对LLMs在解决数学问题方面的鲁棒性和有效性的进一步研究，以及对测试集污染的缓解方法的探索。此外，它还促进了开发更强大的数学推理模型的研究，以解决UGMathBench提出的高难度挑战。

数据集最近研究