MathBench

Name: MathBench
Creator: 上海人工智能实验室
Published: 2024-05-21 01:52:29
License: 暂无描述

arXiv2024-05-21 更新2024-06-21 收录

下载链接：

https://github.com/open-compass/MathBench

下载链接

链接失效反馈

官方服务：

资源简介：

MathBench是一个全面的多语种数学能力评估基准，由上海人工智能实验室创建。该数据集包含3709个问题，覆盖从基础算术到大学数学的五个难度阶段，旨在评估大型语言模型在理论理解和实际问题解决方面的能力。MathBench通过五个阶段的逐步挑战，每个阶段包含双语理论和应用导向问题，精确标记了三个级别的知识点，以提供细致的评估结果。数据集支持中英文双语评估，旨在为研究者和开发者提供一个资源，以提升LLMs的数学能力，并理解现有模型在解决多样化和复杂数学问题上的局限性。

MathBench is a comprehensive multilingual mathematical ability evaluation benchmark developed by Shanghai AI Laboratory. This dataset comprises 3,709 questions spanning five difficulty stages ranging from basic arithmetic to college-level mathematics, designed to assess the capabilities of large language models (LLMs) in terms of theoretical comprehension and practical problem-solving. Through progressive challenges across the five stages, each stage features bilingual theoretical and application-oriented questions, with three tiers of knowledge points accurately annotated to yield detailed, granular evaluation results. Supporting bilingual evaluation in both Chinese and English, MathBench aims to offer researchers and developers a resource to enhance the mathematical capabilities of LLMs and uncover the limitations of existing models when addressing diverse and complex mathematical problems.

提供机构：

上海人工智能实验室

创建时间：

2024-05-21

搜集汇总

数据集介绍

构建方式

在数学能力评估领域，传统基准往往局限于单一维度，难以全面衡量大语言模型的理论理解与应用能力。MathBench的构建采用了层次化知识体系，将数学内容划分为算术、小学、初中、高中和大学五个教育阶段，并进一步细分为学科领域与具体知识点。数据收集过程兼顾理论知识与实际应用问题，理论部分源自教材与网络资源的定义与推论转化，应用部分则精选各阶段教育考试与竞赛题目，如中考、高考、AMC和SAT等。通过半自动化筛选机制，利用GPT-4进行循环评估与人工审核，最终整合了3709道中英双语题目，确保了数据集的多样性与质量。

特点

MathBench的显著特征在于其层次化评估框架与双语支持能力。该数据集通过五阶段分类体系，系统性地覆盖了从基础算术到大学数学的广泛知识范围，实现了对模型数学能力的深度与广度评估。每个阶段均包含理论题与应用题，理论题侧重考查对公式、定理及其推论的理解，应用题则强调知识在实际情境中的迁移运用。题目均标注了精细的三级知识点标签，支持对模型性能的细粒度分析。此外，中英双语的设计使得评估能够反映模型在不同语言语境下的数学能力，为全球范围内的模型比较提供了统一基准。

使用方法

MathBench为研究者提供了系统评估大语言模型数学能力的标准化工具。评估时，可采用循环评估（CircularEval）与困惑度（Perplexity）作为主要方法，分别适用于对话模型与基础模型。对于开放式问题，建议使用少样本思维链设置；对于选择题，则可应用零样本思维链策略。数据集支持按教育阶段、学科领域或具体知识点进行分层分析，便于定位模型的能力瓶颈。用户可通过官方发布的代码库加载数据集，并利用OpenCompass等评估框架进行自动化测试，从而获得模型在理论与应用两方面的详细性能报告，为后续的模型优化与能力提升提供实证依据。

背景与挑战

背景概述

MathBench数据集由上海人工智能实验室等机构于2024年提出，旨在系统评估大语言模型在数学领域的理论与应用能力。该数据集构建了涵盖算术、小学、初中、高中及大学五个教育阶段的层次化知识体系，每个阶段均包含理论知识与实际应用两类问题，并支持中英双语评估。其核心研究在于突破传统数学评测基准（如GSM8k）的单维视角局限，通过细粒度知识标注与渐进式难度设计，全面考察模型对数学概念的理解深度与问题解决能力，为LLMs数学能力的精细化诊断与提升提供了重要基准。

当前挑战

MathBench致力于解决大语言模型在数学领域评估中的多维挑战：其一，传统基准难以全面衡量模型从基础算术到高等数学的跨阶段理论掌握与应用迁移能力；其二，构建过程中需克服高质量双语数学问题的收集与标注难题，确保各教育阶段知识点的覆盖广度与逻辑严谨性。此外，数据需兼顾理论性问题（如公式与定理理解）与应用性问题（如实际场景建模）的平衡，并通过半自动化筛选机制消除题目错误与难度失配，以保障评测结果的可靠性与区分度。

常用场景

经典使用场景

在大型语言模型数学能力评估领域，MathBench作为分层数学基准测试工具，其经典使用场景体现在对模型理论理解与应用解题能力的系统性评测。该数据集通过五个渐进式教育阶段（从基础算术到大学数学）构建了层次化知识体系，每个阶段均包含理论性问题与实际应用题，支持中英双语评估。研究者通常利用MathBench对各类LLM进行跨阶段、跨学科的数学能力诊断，通过CircularEval等评估协议量化模型在代数、几何、微积分等学科的理论掌握程度与实际问题解决表现，从而揭示模型在数学推理中的优势与瓶颈。

解决学术问题

MathBench致力于解决传统数学基准测试存在的评估维度单一、难度分级不全面等学术问题。传统数据集如GSM8k仅侧重于解题能力，难以全面衡量模型对数学理论的理解深度。MathBench通过引入分层知识体系与双语理论-应用双轨问题设计，实现了对模型数学能力的多维度刻画。该数据集有效评估了模型从基础运算到高阶抽象概念的掌握情况，揭示了理论理解与应用能力之间的关联性，为研究社区提供了更精细的模型能力分析工具，推动了数学推理评估方法学的发展。

衍生相关工作

MathBench的发布催生了一系列围绕数学能力评估的衍生研究。基于其分层评估框架，研究者开展了模型规模与数学性能的关联性分析，探索了思维链提示、知识注入等增强策略对理论理解的影响。该数据集启发了对代码解释器与数学推理结合效果的研究，如ReAct协议在数学问题求解中的应用探索。同时，MathBench的多语言特性促进了双语数学能力对比分析工作，为构建更具文化适应性的数学评估体系提供了数据基础。这些衍生工作共同推动了数学智能评估向更系统化、可解释化的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集