MV-MATH

Name: MV-MATH
Creator: 中国科学院自动化研究所
Published: 2025-02-28 15:50:36
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

http://arxiv.org/abs/2502.20808v1

下载链接

链接失效反馈

官方服务：

资源简介：

MV-MATH是由中国科学院自动化研究所MAIS团队精心构建的一个数学问题数据集，包含2009个高质量的问题，每个问题均融入了多张图片与文本的交错的多元模式，来源于真实的K-12教学场景。数据集涵盖了11个学科领域，分为三个难度等级，并包括多种问题类型，如选择题、自由回答题和多变步问题，为评估多模态大型语言模型在多视觉情景下的数学推理能力提供了一个全面严谨的基准。

提供机构：

中国科学院自动化研究所

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

MV-MATH数据集的构建始于收集超过30万个涵盖K-12场景的数学问题，包括选择题和自由格式问题，这些问题以PDF格式存储。通过Mathpix API提取文本内容和图像，并将数据组织成JSON格式。然后，根据图像数量，确定了初步的多图像问题集。为了确保多图像数学数据的高质量，采用了三阶段的数据筛选策略。首先验证文本和图像之间的对齐情况，然后检查文本字段是否缺失或语义不准确，最后手动过滤掉低质量的图像。使用这些样本进行难度分级、科目分类和图像相关性分类，并进行人工验证以确保准确性。

使用方法

为了评估模型在多模态数学推理中的表现，进行了广泛的实验，包括18个开源模型和7个API模型。评估涵盖了三种条件：纯文本、文本加图像标题和文本加图像。结果显示，模型在图像依次输入时表现更好，而相互依赖的图像任务更具挑战性。此外，即使是表现最好的模型，Claude 3.5-Connect，也远低于人类水平的表现，这突出了数学多视觉推理能力需要改进的空间。

背景与挑战

背景概述

随着多模态大型语言模型（MLLMs）在自然语言理解、问答和代码生成等任务中的出色表现，其在数学推理领域的应用也引起了广泛关注。现有的多模态数学推理数据集，如MathVista、MathVision和MathVerse等，大多局限于单视觉场景，与现实世界中常见的多视觉数学应用场景存在较大差距。为了填补这一空白，Peijie Wang等人于2025年提出了MV-MATH数据集，该数据集包含2009个高质量的数学问题，每个问题都结合了多个图像和文本，源于真实的K-12场景，并辅以详细的注释。MV-MATH涵盖了选择题、自由回答和多步问题，跨越11个学科领域和3个难度级别，为评估MLLMs在多视觉环境下的数学推理能力提供了一个全面而严格的基准。

当前挑战

MV-MATH数据集的挑战主要体现在以下几个方面：首先，MLLMs在多视觉数学任务中面临着显著的挑战，与人类在MV-MATH上的能力相比存在较大差距；其次，模型在图像依赖型任务中的表现不如图像独立型任务；此外，模型对图像的输入方法也会影响其性能，序列图像输入方法通常优于合并输入方法；最后，尽管CoT提示在某些情况下可以提高模型性能，但并非总是有效，且在加入2-shot提示后，模型性能往往会下降。

常用场景

经典使用场景

在多模态数学推理领域，MV-MATH数据集被广泛用于评估多模态大型语言模型（MLLMs）在多视觉情境下的数学推理能力。该数据集包含2,009个高质量的数学问题，每个问题都融合了多个图像和文本，覆盖了11个学科领域和3个难度级别，为MLLMs的多视觉数学推理提供了一个全面和严格的基准。通过在MV-MATH上的广泛实验，研究人员观察到MLLMs在多视觉数学任务中面临着巨大的挑战，其性能与人类能力相比存在显著差距。

解决学术问题

MV-MATH数据集解决了现有多模态数学基准主要集中在单一视觉情境的问题。在现实世界的数学应用中，多视觉情境更为常见，而现有的基准数据集大多仅限于单图像输入。MV-MATH通过引入多图像和多文本的问题，使得MLLMs能够更好地理解和处理多视觉情境下的数学问题，从而更接近现实世界的数学应用。此外，该数据集还揭示了MLLMs在处理图像依赖任务、多步推理以及不同难度级别问题上的性能差异，为学术研究提供了重要的参考和启示。

实际应用

MV-MATH数据集在实际应用中具有重要的价值。例如，在教育领域，它可以用于开发智能教育软件，帮助学生在多视觉情境下更好地理解和学习数学。在工业领域，它可以用于开发智能机器人，使其能够更好地理解和处理多视觉情境下的数学问题。此外，该数据集还可以用于开发智能助手，帮助人们在日常生活中更好地理解和处理数学问题。

数据集最近研究