MathVerse

github2024-03-21 更新2024-05-31 收录

下载链接：

https://github.com/ZrrSkywalker/MathVerse

下载链接

链接失效反馈

资源简介：

MathVerse是由CUHK MMLab、上海人工智能实验室和加州大学洛杉矶分校联合构建的一个基准测试数据集，旨在全面评估多模态大模型（MLLMs）在视觉数学问题解决中对图表的理解能力。该数据集收集了 2612 个多模态数学题，覆盖平面几何、立体几何和函数3大领域，并进一步细分为12个子领域。每个问题被转化为6个不同版本，以不同的文本和视觉信息内容进行测试，共计产生15,672个测试样本。MathVerse旨在深入探究 MLLMs 是否真正具备解读和解答多模态数学题的能力，为未来的技术发展提供独特的见解。

MathVerse is a benchmark dataset jointly constructed by CUHK MMLab, Shanghai AI Laboratory, and University of California, Los Angeles (UCLA). It aims to comprehensively evaluate the chart understanding capabilities of multimodal large language models (MLLMs) in visual mathematical problem-solving. This dataset collects 2612 multimodal mathematical problems, covering three core domains: plane geometry, solid geometry, and functions, which are further subdivided into 12 sub-domains. Each problem is converted into 6 distinct variants with differing text and visual information content for testing, resulting in a total of 15,672 test samples. MathVerse is designed to deeply explore whether MLLMs truly possess the ability to interpret and solve multimodal mathematical problems, providing unique insights for future technological development.

提供机构：

CUHK MMLab、上海人工智能实验室、加州大学洛杉矶分校

创建时间：

2024-03-21

原始信息汇总

数据集概述

名称: MathVerse

目的: 评估多模态大型语言模型（MLLMs）在视觉数学问题解决中的能力，特别是对输入图表的理解和推理。

特点:

问题数量: 2,612个高质量、多学科的数学问题，每个问题有六个不同版本。
样本总数: 总计15,000个测试样本。
评估策略: 引入链式思维（CoT）评估策略，通过GPT-4(V)提取关键推理步骤并进行详细错误分析。

数据集组成:

testmini.json: 包含788个视觉数学问题的五个主要版本，用于计算整体得分。
testmini_text_only.json: 包含788个仅文本的测试样本，用于评估视觉图表理解能力。

评估方法:

w/o 分数: 使用 query_wo 作为输入，直接输出答案进行评估。
CoT 评估: 使用 query_cot 作为输入，鼓励模型提供逐步推理过程进行评估。

数据集访问:

可通过Hugging Face平台下载，使用命令 from datasets import load_dataset 进行加载。

数据集使用示例

python from datasets import load_dataset

dataset = load_dataset("AI4Math/MathVerse", "testmini") dataset_text_only = load_dataset("AI4Math/MathVerse", "testmini_text_only")

访问数据集示例

print(dataset["testmini"][0]) print(dataset_text_only["testmini_text_only"][0])

评估流程

答案提取: 使用ChatGPT/GPT-4 API提取答案。
答案评分: 使用提取的答案与标准答案进行匹配评分。

引用信息

latex @article{zhang2024mathverse, title={MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?}, author={Zhang, Renrui and Jiang, Dongzhi and Zhang, Yichi and Lin, Haokun and Guo, Ziyu and Qiu, Pengshuo and Zhou, Aojun and Lu, Pan and Chang, Kai-Wei and Gao, Peng and others}, journal={arXiv preprint arXiv:2403.14624}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

MathVerse数据集的构建旨在深入评估多模态大语言模型（MLLMs）在视觉数学问题解决中的能力。研究团队从公开来源精心收集了2,612道高质量、多学科的数学问题，每道问题均包含图表。随后，通过人工标注将每道问题转化为六种不同版本，每种版本在多模态信息内容上提供不同程度的支持，最终形成了共计15,000个测试样本。这一构建方式确保了数据集能够全面评估MLLMs是否真正理解视觉图表以进行数学推理。

特点

MathVerse数据集的核心特点在于其多样化的多模态问题版本设计。每道数学问题被转化为六种不同版本，涵盖了从文本主导到视觉主导的多种信息组合，使得数据集能够细致评估MLLMs在不同信息条件下的表现。此外，数据集还引入了链式思维（CoT）评估策略，通过GPT-4(V)提取关键推理步骤并进行详细错误分析，进一步揭示了MLLMs在中间推理过程中的质量。

使用方法

MathVerse数据集的使用方法主要包括评估和推理两个步骤。用户可以通过lmms-eval工具进行高效评估，首先安装相关包并指定模型类型、路径和输出路径，随后运行评估脚本。对于未支持lmms-eval的模型，用户可以使用提供的代码自行进行答案提取和评分。数据集还提供了详细的模板和示例，帮助用户准备结果文件并进行推理。通过这种方式，用户能够全面评估MLLMs在视觉数学问题上的表现，并参与数据集的排行榜更新。

背景与挑战

背景概述

MathVerse数据集由香港中文大学的研究团队于2024年推出，旨在深入评估多模态大语言模型（MLLMs）在视觉数学问题解决中的能力。该数据集包含2,612个高质量的多学科数学问题，每个问题通过人工标注转化为六个不同版本，共计15,000个测试样本。MathVerse的核心研究问题在于探究MLLMs是否真正理解并利用视觉图表进行数学推理。该数据集的发布填补了多模态数学推理评估领域的空白，为相关研究提供了重要的基准工具。

当前挑战

MathVerse面临的挑战主要体现在两个方面。首先，在领域问题层面，现有的多模态大语言模型在处理视觉数学问题时，往往依赖于文本内容而非真正理解图表信息，导致评估结果存在偏差。其次，在数据集构建过程中，如何确保每个问题的六个版本在信息量上保持一致性，同时避免引入人为偏见，是一项复杂且耗时的工作。此外，数据集的评估策略需要精细设计，以确保能够准确反映模型的推理能力，而非简单的答案匹配。

常用场景

经典使用场景

MathVerse数据集在评估多模态大语言模型（MLLMs）在视觉数学问题解决中的表现方面具有重要应用。通过提供包含图表的高质量数学问题，该数据集能够全面测试模型是否真正理解并利用视觉信息进行数学推理。其经典使用场景包括对MLLMs在文本与视觉信息融合能力上的深入评估，特别是在几何、函数等数学领域的应用。

解决学术问题

MathVerse数据集解决了当前多模态大语言模型在视觉数学问题解决中表现评估不足的问题。通过提供多样化的数学问题版本，该数据集能够揭示模型是否真正依赖视觉信息进行推理，而非仅通过文本内容推断答案。这一数据集为研究者提供了更精细的评估工具，帮助理解MLLMs在多模态推理中的局限性，并推动相关技术的改进。

衍生相关工作

MathVerse数据集衍生了一系列相关研究工作，特别是在多模态大语言模型的优化与评估领域。例如，基于该数据集的研究推动了MAVIS项目的开发，该项目包括大规模数据集、视觉编码器和数学专用MLLM的构建。此外，MathVerse还为LLaVA-OneVision等模型的训练提供了重要数据支持，进一步提升了模型在视觉数学推理中的表现。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集