MathScape

arXiv2024-08-14 更新2024-08-16 收录

下载链接：

https://github.com/Ahalfmoon/MathScape

下载链接

链接失效反馈

资源简介：

MathScape是由南开大学、北京大学、百川公司和中国科学院大学联合开发的多模态数学问题数据集，旨在评估多模态大语言模型在数学问题解决中的应用。该数据集包含1325张图像，涵盖从小学到高中的数学问题，难度从易到难，涉及多种题型和知识领域。数据集的创建过程包括数学文档的图像转换、真实场景的图像捕捉和严格的质量检查与知识分类。MathScape主要用于评估模型的数学推理能力和复杂多步量化推理能力，特别是在视觉上下文中的应用。

MathScape is a multimodal mathematical problem dataset jointly developed by Nankai University, Peking University, Baichuan Inc., and the University of Chinese Academy of Sciences, aiming to evaluate the application of multimodal large language models in mathematical problem-solving. This dataset contains 1,325 images, covering mathematical problems from primary school to high school, with difficulty ranging from easy to hard, involving a variety of question types and knowledge domains. The dataset creation process includes image conversion of mathematical documents, image capture of real-world scenarios, as well as strict quality inspection and knowledge classification. MathScape is primarily used to evaluate the mathematical reasoning ability and complex multi-step quantitative reasoning ability of models, especially their applications in visual contexts.

提供机构：

南开大学、北京大学、百川公司、中国科学院大学

创建时间：

2024-08-14

AI搜集汇总

数据集介绍

构建方式

MathScape数据集的构建过程分为三个步骤。首先，从小学、初中和高中的考试和作业中收集大量数学问题，并将其转换为图像格式。接着，通过拍摄打印图像、屏幕显示和截图的方式，将这些问题转化为更贴近真实场景的图像。最后，进行双重检查和知识分类，确保数据集的高质量和准确性。

特点

MathScape数据集的特点在于其结合了视觉和文本信息，旨在评估多模态大语言模型在数学问题上的理解和应用能力。该数据集涵盖了从小学到高中的不同难度级别，包括多种题型和知识领域，为全面评估模型的数学能力提供了丰富的资源。

使用方法

MathScape数据集的使用方法包括两个主要步骤。首先，利用大语言模型（LLMs）提取每个子问题的答案。然后，使用LLMs作为评估者，评估每个解决方案的正确性。通过这种两步评估流程，可以有效地评估模型在处理复杂数学问题时的表现。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）的发展，评估这些模型在数学问题背景下的表现已成为一个重要的研究领域。多模态视觉-文本数学推理能力是评估MLLMs理解和复杂多步定量推理能力的关键指标。然而，先前的多模态数学基准并未充分整合视觉和文本信息。为了填补这一空白，我们提出了MathScape，这是一个新的基准，强调对视觉和文本信息结合的理解和应用。MathScape旨在评估基于照片的数学问题场景，通过分类层次方法评估MLLMs的理论理解和应用能力。

当前挑战

MathScape数据集在构建过程中面临两大主要挑战：1) 现实世界数据的不足。在先前的数据集中，数学描述通常以文本输入形式提供，而图像仅包含图形，这与现实世界中数学描述和图形在同一图像中捕获的情况不符。2) 缺乏有效的评估指标。先前的数据集评估仅限于简短答案，无法评估长篇回答。为了解决这些问题，我们实施了一个三步数据构建管道，并设计了一个两步评估方法，专门用于评估较长的数学问题。

常用场景

经典使用场景

MathScape数据集的经典使用场景在于评估多模态大语言模型（MLLMs）在数学问题中的表现。通过结合视觉和文本信息，MathScape能够测试模型在复杂数学问题中的理解和推理能力，特别是在几何、代数等领域的多步骤推理任务。

实际应用

MathScape数据集在教育科技领域具有广泛的应用前景。它可以用于开发智能辅导系统，帮助学生解决复杂的数学问题，提供个性化的学习路径。此外，MathScape还可以用于评估和改进教育软件中的数学问题解决算法，提升教育工具的智能化水平。

衍生相关工作

MathScape数据集的提出激发了一系列相关研究工作，包括改进多模态模型的数学推理能力、开发新的评估方法和构建更为复杂的多模态数学问题数据集。例如，一些研究者基于MathScape开发了新的模型训练和评估框架，进一步提升了模型在数学问题上的表现。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集