mathvision

github2024-02-24 更新2024-05-31 收录

下载链接：

https://github.com/mathvision-cuhk/MathVision

下载链接

链接失效反馈

官方服务：

资源简介：

Recent advancements in Large Multimodal Models (LMMs) have shown promising results in mathematical reasoning within visual contexts, with models approaching human-level performance on existing benchmarks such as MathVista. However, we observe significant limitations in the diversity of questions and breadth of subjects covered by these benchmarks. To address this issue, we present the MATH-Vision (MATH-V) dataset, a meticulously curated collection of 3,040 high-quality mathematical problems with visual contexts sourced from real math competitions. Spanning 16 distinct mathematical disciplines and graded across 5 levels of difficulty, our dataset provides a comprehensive and diverse set of challenges for evaluating the mathematical reasoning abilities of LMMs.

近年来，大型多模态模型（Large Multimodal Models, LMMs）领域的研究进展在视觉场景下的数学推理任务中取得了亮眼成果，相关模型在MathVista等现有基准测试集上已逼近人类水平的表现。然而，我们发现现有基准测试集在问题多样性与覆盖学科广度上存在显著局限。为解决这一问题，我们构建了MATH-Vision（MATH-V）数据集：该数据集经精心遴选汇编，包含3040道源自真实数学竞赛、带有视觉场景的高质量数学题目。该数据集涵盖16个不同的数学学科领域，并设置了5个难度等级，可为评估大型多模态模型的数学推理能力提供兼具全面性与多样性的评测挑战。

创建时间：

2024-02-17

原始信息汇总

数据集概述

数据集名称

MATH-Vision (MATH-V) 数据集

数据集描述

MATH-Vision (MATH-V) 数据集 是一个包含3,040个高质量数学问题的集合，这些问题均带有视觉上下文，来源于真实的数学竞赛。该数据集涵盖16个不同的数学领域，并根据难度分为5个等级，旨在全面评估大型多模态模型（LMMs）在数学推理方面的能力。

数据集特点

多模态数学推理：数据集设计用于评估模型在视觉上下文中的数学推理能力。
广泛的主题覆盖：涵盖16个数学领域，包括分析几何、拓扑学和图论等。
多级难度：问题根据难度分为5个等级，从易到难。

数据集使用

模型评估：数据集用于评估如GPT-4、GPT-4V、Gemini等模型的数学推理性能。
研究工具：提供评估代码和数据，支持研究者在数学推理领域的进一步探索。

数据集访问

数据集链接：可通过 Huggingface 访问。

数据集示例

示例内容：包括分析几何、拓扑学和图论等领域的具体问题示例。
示例访问：详细示例可在论文的附录D.3中找到。

评估与结果

模型表现：截至最新更新，GPT-4o在MATH-V上的得分为30.39%，而人类表现约为70%。
评估工具：提供评估脚本，用于计算模型输出的准确性和各学科及难度的表现。

引用信息

引用格式：

@misc{wang2024measuring, title={Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset}, author={Ke Wang and Junting Pan and Weikang Shi and Zimu Lu and Mingjie Zhan and Hongsheng Li}, year={2024}, eprint={2402.14804}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

MATH-Vision数据集的构建基于对数学竞赛中真实问题的精心筛选与整理，涵盖了16个不同的数学领域，并根据难度分为5个等级。该数据集通过引入视觉上下文，旨在评估多模态模型在数学推理任务中的表现，从而填补现有基准在问题多样性和学科广度上的不足。

使用方法

使用MATH-Vision数据集时，用户可以通过运行提供的Python脚本生成不同模型的输出，并使用评估脚本对这些输出进行准确性分析。具体操作包括运行Gemini或GPT-4V等模型的脚本，生成结果后通过`evaluate.py`脚本进行评估，计算总体准确率及各领域和难度级别的准确率。

背景与挑战

背景概述

近年来，大型多模态模型（LMMs）在视觉情境下的数学推理任务中展现出显著进展，但现有基准在问题多样性和涵盖学科广度上存在明显局限。为此，MATH-Vision（MATH-V）数据集应运而生，由王珂等人于2024年精心构建，旨在提供一个全面且多样化的数学推理评估平台。该数据集包含3,040个高质量数学问题，源自实际数学竞赛，涵盖16个不同数学领域，并按难度分为五个等级。MATH-V的推出不仅填补了现有基准的空白，还为推动多模态模型在数学推理领域的进一步发展提供了重要资源。

当前挑战

MATH-Vision数据集面临的主要挑战包括：首先，如何确保问题多样性和学科覆盖的广泛性，以全面评估多模态模型的数学推理能力。其次，构建过程中需克服从真实竞赛中提取高质量数学问题的复杂性，确保问题的准确性和适用性。此外，数据集的评估方法需精确反映模型在不同难度和学科上的表现，以揭示当前多模态模型与人类表现之间的显著差距。这些挑战不仅推动了数据集的精细化设计，也为未来多模态模型的发展指明了方向。

常用场景

经典使用场景

MATH-Vision数据集的经典使用场景主要集中在多模态数学推理任务的评估与研究。该数据集通过提供3,040个高质量的数学问题，涵盖16个不同的数学领域和5个难度级别，为大型多模态模型（LMMs）的数学推理能力提供了全面的测试平台。研究者可以利用该数据集评估模型在处理视觉上下文中的数学问题的能力，从而推动多模态学习技术的发展。

解决学术问题

MATH-Vision数据集解决了现有数学推理基准在问题多样性和学科覆盖范围上的不足。通过提供多样化的数学问题和视觉上下文，该数据集为学术界提供了一个标准化的评估工具，帮助研究者识别和改进多模态模型在数学推理中的性能差距。这不仅推动了多模态学习技术的进步，也为未来模型设计提供了重要的参考依据。

实际应用

MATH-Vision数据集在实际应用中具有广泛的前景，特别是在教育科技和自动化评估系统中。例如，它可以用于开发智能辅导系统，帮助学生通过视觉和文本结合的方式解决复杂的数学问题。此外，该数据集还可用于评估和优化自动化考试系统，确保其在处理多模态输入时的准确性和可靠性。

数据集最近研究