MV-MATH

Name: MV-MATH
Creator: 中国科学院自动化研究所
Published: 2025-03-03 11:43:03
License: 暂无描述

arXiv2025-03-03 更新2025-03-05 收录

下载链接：

https://eternal8080.github.io/MV-MATH.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MV-MATH是一个精心策划的数据集，包含2009个高质量的数学问题，每个问题都集成了多张图片和文本，来源于真实的K-12场景，并附有详细的注释。数据集包含多种题型，涵盖11个学科领域，分为3个难度级别。该数据集旨在评估多模态大型语言模型在多视觉情境下的数学推理能力。

MV-MATH is a meticulously curated dataset consisting of 2009 high-quality mathematical problems. Each problem incorporates multiple images and textual content, originates from real K-12 scenarios, and is paired with detailed annotations. The dataset includes diverse question types, spans 11 subject domains, and is divided into three difficulty levels. This dataset is designed to evaluate the mathematical reasoning capabilities of multimodal large language models in multi-visual contexts.

提供机构：

中国科学院自动化研究所

创建时间：

2025-02-28

搜集汇总

数据集介绍

构建方式

MV-MATH数据集的构建过程包括数据收集、数据筛选和数据标注三个阶段。首先，研究人员从Zujuan网站收集了约30万个涵盖12年级场景的数学问题，使用Mathpix API提取文本内容和图像。然后，通过三阶段的数据筛选策略，包括文本与图像的匹配验证、文本缺失和语义准确性检查以及手动排除低质量图像，确保了数据集的高质量。最后，研究人员对每个问题进行了难度分级、科目分类和图像相关性分类，并进行了人工验证以确保分类的准确性。

使用方法

使用MV-MATH数据集进行评估时，研究人员进行了广泛的实验，包括多种模型、不同条件下的评估和针对不同问题的分析。模型性能评估涵盖了三种条件：仅文本、文本加图像标题和文本加图像。结果显示，模型在处理多图像任务时面临重大挑战，与人类能力相比存在显著差距。通过深入分析，研究人员提供了关于模型在多图像数学推理方面的优势和局限性的见解，为未来模型的改进提供了方向。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）在数学推理方面展现出令人瞩目的能力的同时，现有的多模态数学评估数据集大多局限于单一视觉场景。然而，现实世界中的数学应用往往涉及多视觉场景。为了填补这一空白，Peijie Wang等人于2025年创建了MV-MATH数据集。该数据集精心策划了2009个高质量的数学问题，每个问题都融合了多张图像和文本，来自真实的K-12场景，并辅以详细的注释。MV-MATH包括选择题、自由回答和多步骤问题，涵盖11个学科领域和3个难度级别，旨在全面评估MLLMs在多视觉场景中的数学推理能力。该数据集的创建对于推动MLLMs在多视觉数学推理方面的发展具有重要意义。

当前挑战

MV-MATH数据集在解决领域问题方面面临的主要挑战包括：1) 所解决的领域问题是多视觉场景下的数学推理，需要模型能够理解和处理多张图像之间的关系，这与现实世界中的数学应用更为贴近。2) 构建过程中所遇到的挑战包括：数据收集和标注的准确性，需要确保每个问题的答案和图像都经过至少两名标注者的交叉验证；多图像输入方法的优化，需要探究如何更好地利用图像的顺序和位置信息；以及模型在多图像数学推理任务中的性能提升，目前模型的性能与人类水平相比仍有较大差距，需要在推理能力、视觉感知和知识储备等方面进行改进。

常用场景

经典使用场景

在多模态数学推理领域，MV-MATH数据集被广泛应用于评估和训练多模态大型语言模型（MLLMs）在多视觉环境中的数学推理能力。该数据集包含了来自真实K-12场景的2,009个高质量的数学问题，每个问题都集成了多个图像和文本，并附有详细的注释。MV-MATH数据集包括选择题、自由形式题和多步骤题，覆盖了11个学科领域和3个难度级别，为评估MLLMs在多视觉环境中的数学推理能力提供了一个全面而严格的基准。

解决学术问题

MV-MATH数据集解决了现有多模态数学基准在单视觉环境下的局限性，填补了多视觉场景数学推理评估的空白。该数据集通过引入多图像和多文本的复杂问题，挑战了MLLMs在处理跨图像依赖性任务时的能力，并揭示了模型在多视觉数学任务中与人类能力相比存在的显著差距。此外，MV-MATH数据集还通过细粒度的分类和多样化的问题类型，提供了深入分析模型性能和错误模式的可能。

实际应用

MV-MATH数据集在实际应用中，可用于改进和优化多模态大型语言模型在数学推理任务上的性能。通过在MV-MATH上进行训练和评估，模型可以学习更好地理解和处理多视觉环境中的数学问题，从而提高在现实世界中的应用能力。例如，在数学教育领域，MV-MATH可以帮助开发更智能的教育软件，提供个性化的学习体验，并辅助教师评估学生的数学推理能力。

数据集最近研究