MathBench

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/open-compass/MathBench

下载链接

链接失效反馈

官方服务：

资源简介：

MathBench是一个全面的数学评估数据集，具有五级难度机制，涵盖从基础算术到大学水平的3709个问题。该数据集支持中英文双语，并采用循环评估方法(CE)进行问题评估，以更真实地反映模型的能力。

MathBench is a comprehensive mathematical evaluation dataset featuring a five-level difficulty mechanism, encompassing 3,709 questions ranging from basic arithmetic to university-level mathematics. The dataset supports both Chinese and English languages and employs a cyclic evaluation (CE) method for question assessment, providing a more authentic reflection of model capabilities.

创建时间：

2024-01-15

原始信息汇总

数据集概述

数据集名称

MathBench: 一个用于评估语言模型理论与应用能力的分层数学基准。

数据集特点

五阶段难度机制：包含3709个问题，难度从基础算术到大学水平，分为五个教育阶段。
双语评估：除基础计算外，问题提供中文和英文版本。
循环评估方法(CE)：通过多次回答同一问题，选项顺序变化，以更真实地反映模型能力。
理论问题支持：每个阶段都包含基础理论知识问题，以测试模型是否真正掌握概念。

数据集更新

2024.5.20：数据集被ACL2024接受，并发布了更多模型的性能。
2024.3.14：发布完整版本，包含3709个中英文问题。
2024.1.26：发布应用问题部分。

数据集结构

数据集结构图展示了从基础到大学的五个教育阶段的问题分布。

模型性能

使用零样本CoT和少样本CoT方法评估多选和文本问题。
结果显示在表格中，包括准确率和循环评估(CE)两种度量。

应用与理论问题性能

MathBench-A：展示模型在应用问题上的性能。
MathBench-T：展示模型在理论问题上的性能。

双语性能

数据集支持中英文双语评估，具体性能数据未在提供的内容中详细展示。

模型大小与平均得分关系

提供了一个图表，展示模型参数大小与在MathBench上的性能关系，其中GPT-4-0125-Preview的得分用红色虚线表示。

使用OpenCompass进行推理

提供了使用OpenCompass工具进行MathBench推理的详细步骤，包括安装、数据准备和执行推理的命令。

引用与技术报告

提供了引用该数据集的参考文献信息。

搜集汇总

数据集介绍

构建方式

MathBench数据集的构建基于一个复杂的五阶段难度机制，涵盖了从基础算术到大学级别的数学问题。该数据集包含3709个问题，每个问题都经过精心设计，以确保其在教育阶段的难度梯度。此外，MathBench还采用了双语评估，提供了中文和英文两种语言的问题，以增强其通用性和适用性。数据集的构建过程中，还引入了鲁棒循环评估（CE）方法，通过多次评估同一问题并改变选项顺序，确保评估结果的准确性和可靠性。

特点

MathBench数据集的显著特点在于其多层次的难度划分和双语支持。通过从基础到高级的五个教育阶段，MathBench能够全面评估语言模型在不同数学领域的掌握程度。此外，数据集的双语特性不仅增强了其国际化应用潜力，还为跨语言模型的评估提供了有力工具。鲁棒循环评估（CE）方法的引入，使得评估结果更加真实和可靠，能够有效反映模型的实际能力。

使用方法

使用MathBench数据集进行评估时，用户可以通过OpenCompass工具包进行推理和分析。首先，用户需要安装OpenCompass并准备数据集。接着，可以通过命令行运行评估脚本，选择合适的模型和参数进行推理。MathBench支持多种模型评估，包括HuggingFace模型，用户可以根据需要调整评估设置。此外，数据集还提供了详细的评估结果和双语表现分析，用户可以通过不同的汇总器获取所需的结果。

背景与挑战

背景概述

MathBench数据集由OpenCompass团队创建，旨在评估大型语言模型（LLMs）在数学理论与应用方面的能力。该数据集于2024年发布，涵盖了从基础算术到大学水平的3709个问题，通过五级难度机制和双语评估，提供了全面的数学能力测试。MathBench不仅关注模型的计算能力，还通过循环评估（CE）方法和理论问题测试，确保模型真正掌握数学概念而非简单记忆答案。这一数据集的发布对推动LLMs在数学领域的应用研究具有重要意义。

当前挑战

MathBench数据集在构建过程中面临多重挑战。首先，如何精确划分和标识不同教育阶段的数学问题难度，确保评估的准确性和公平性，是一个复杂的问题。其次，双语问题的引入增加了数据集的复杂性，要求模型在不同语言环境下保持一致的性能。此外，循环评估（CE）方法的实施，虽然提高了评估的真实性，但也增加了计算和评估的复杂度。最后，如何在理论与应用问题之间找到平衡，确保数据集既能反映模型的理论理解能力，又能评估其在实际应用中的表现，是MathBench需要持续探索的挑战。

常用场景

经典使用场景

MathBench数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在数学领域的理论和应用能力。通过其精心设计的五个难度阶段，从基础算术到大学水平，MathBench能够全面评估模型在不同教育阶段的数学问题解决能力。此外，其双语评估机制和循环评估方法进一步增强了评估的准确性和全面性，使得MathBench成为研究者和开发者评估和优化数学相关模型的重要工具。

解决学术问题

MathBench数据集解决了在评估大型语言模型数学能力时常见的单一难度或难度层次不清晰的问题。通过其多阶段难度机制和双语评估，MathBench为学术界提供了一个更为细致和全面的评估框架。这不仅有助于更准确地衡量模型的数学能力，还为模型在不同教育阶段的实际应用提供了有力的支持，推动了相关领域的研究进展。

衍生相关工作

MathBench数据集的发布和应用催生了一系列相关的经典工作，特别是在大型语言模型的数学能力评估和优化方面。例如，基于MathBench的评估结果，研究者们开发了多种数学模型和算法，以提升模型在不同难度阶段的数学问题解决能力。此外，MathBench的双语评估机制也为多语言环境下的模型评估提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集