AI4Math/MathVerse

Name: AI4Math/MathVerse
Creator: AI4Math
Published: 2025-05-15 05:58:46
License: 暂无描述

Hugging Face2025-05-15 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/AI4Math/MathVerse

下载链接

链接失效反馈

官方服务：

资源简介：

MathVerse是一个全面的视觉数学基准测试，旨在公平且深入地评估多模态大语言模型（MLLMs）的能力。该数据集从公开来源精心收集了2,612个高质量、多学科的数学问题，并通过人工注释将其转换为六个不同版本，每个版本在多模态信息内容上提供不同程度的变体，总共贡献了15K个测试样本。这种方法使MathVerse能够全面评估MLLMs是否以及多大程度上能够真正理解视觉图表以进行数学推理。此外，提出了Chain-of-Thought (CoT) Evaluation策略，用于细粒度评估模型输出的推理步骤。

MathVerse is a comprehensive visual mathematical benchmark designed to fairly and thoroughly evaluate the capabilities of multimodal large language models (MLLMs). This dataset carefully curates 2,612 high-quality, multi-disciplinary mathematical problems from publicly available sources, and converts them into six distinct versions via manual annotation. Each version provides variants with varying levels of multimodal information content, resulting in a total of 15,000 test samples. This approach enables MathVerse to comprehensively assess whether and to what extent MLLMs can truly comprehend visual diagrams for mathematical reasoning. Additionally, a Chain-of-Thought (CoT) Evaluation strategy is proposed to conduct fine-grained evaluations of the reasoning steps in model outputs.

提供机构：

AI4Math

原始信息汇总

数据集概述

任务类别

多选题
问答
视觉问答

语言

英语

数据集大小

数据量介于1K至10K之间

配置信息

配置名称: testmini
- 数据文件:
  - 分割: testmini
  - 路径: testmini.parquet
- 特征:
  - sample_index: 字符串
  - problem_index: 字符串
  - problem_version: 字符串
  - question: 字符串
  - image: 图像
  - answer: 字符串
  - question_type: 字符串
  - metadata: 结构体
    - split: 字符串
    - source: 字符串
    - subject: 字符串
    - subfield: 字符串
  - query_wo: 字符串
  - query_cot: 字符串
  - question_for_eval: 字符串
- 分割:
  - 名称: testmini
  - 字节数: 166789963
  - 示例数: 3940
配置名称: testmini_text_only
- 数据文件:
  - 分割: testmini_text_only
  - 路径: testmini_text_only.parquet
- 特征:
  - sample_index: 字符串
  - problem_index: 字符串
  - problem_version: 字符串
  - question: 字符串
  - image: 字符串
  - answer: 字符串
  - question_type: 字符串
  - metadata: 结构体
    - split: 字符串
    - source: 字符串
    - subject: 字符串
    - subfield: 字符串
  - query_wo: 字符串
  - query_cot: 字符串
  - question_for_eval: 字符串
- 分割:
  - 名称: testmini_text_only
  - 字节数: 250959
  - 示例数: 788

数据集描述

MathVerse 是一个全面的视觉数学基准，旨在公平深入地评估多模态大型语言模型（MLLMs）。数据集包含2,612个高质量、多学科的数学问题，每个问题由人工注释者转换为六个不同版本，总计15K测试样本。此方法允许MathVerse全面评估MLLMs是否以及在多大程度上能够真正理解数学推理中的视觉图表。

评估策略

提出了一种链式思维（CoT）评估策略，用于细粒度地评估输出答案。通过GPT-4(V)自适应提取关键推理步骤，并对每一步进行详细错误分析，揭示MLLMs的中间CoT推理质量。

搜集汇总

数据集介绍

构建方式

MathVerse数据集的构建过程体现了对多模态大语言模型（MLLMs）在视觉数学问题解决能力评估的深入探索。该数据集精心收集了2,612个高质量、多学科的数学问题，这些问题均附有图表，并从公开资源中获取。每个问题由人工标注者转化为六个不同的版本，每个版本在多模态信息内容上有所不同，从而形成了总计15,000个测试样本。这种设计旨在全面评估MLLMs是否以及在多大程度上能够真正理解视觉图表以进行数学推理。

特点

MathVerse数据集的显著特点在于其多模态性和多样性。每个数学问题被转化为六个不同版本，这些版本在信息内容的丰富程度上有所差异，从而能够细致评估模型对视觉信息的理解和利用能力。此外，数据集采用了Chain-of-Thought（CoT）评估策略，通过GPT-4(V)提取关键推理步骤，并进行详细错误分析，以揭示模型在推理过程中的中间步骤质量。

使用方法

MathVerse数据集适用于多模态大语言模型的评估和训练。用户可以通过加载数据集的不同配置（如testmini和testmini_text_only）来获取数据。数据集提供了丰富的元数据，包括问题类型、来源、学科和子领域等信息，便于用户进行细粒度的分析和模型调优。此外，数据集还支持Chain-of-Thought评估策略，用户可以利用这一策略对模型的推理过程进行深入分析和优化。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）的视觉数学问题解决能力评估中，现有的基准测试往往未能充分揭示模型对输入图形的真正理解。MathVerse数据集由香港中文大学等机构的研究团队于2024年创建，旨在通过收集和标注2,612个高质量的多学科数学问题，评估MLLMs在处理包含图形的数学问题时的表现。该数据集通过人工注释将每个问题转化为六种不同版本，总计生成15,000个测试样本，以全面评估模型对视觉信息的理解能力。此外，MathVerse还引入了链式思维（CoT）评估策略，通过GPT-4(V)提取关键推理步骤并进行详细错误分析，进一步细化了模型的评估标准。

当前挑战

MathVerse数据集面临的挑战主要集中在两个方面。首先，如何确保多模态大语言模型能够真正理解并利用视觉信息进行数学推理，而非仅仅依赖文本信息进行推断，这是一个亟待解决的问题。其次，数据集的构建过程中，如何从公开资源中筛选出高质量的数学问题，并通过人工注释生成多样化的测试样本，确保评估的全面性和公平性，也是一项复杂且耗时的任务。此外，CoT评估策略的引入虽然提升了评估的精细度，但也增加了评估的复杂性和计算成本。

常用场景

经典使用场景

MathVerse数据集的经典使用场景主要集中在多模态大语言模型（MLLMs）在视觉数学问题解决中的评估与优化。该数据集通过提供包含图像和文本的多模态数学问题，旨在深入探究MLLMs是否能够真正理解和利用视觉信息进行数学推理。其多样化的数据格式和问题版本设计，使得研究者能够系统地评估模型在不同信息量和复杂度下的表现，从而推动多模态学习技术的发展。

实际应用

MathVerse数据集在实际应用中具有广泛的前景，特别是在教育科技领域。通过模拟真实的数学考试和学习场景，该数据集可以帮助开发更智能的教育辅助工具，如自动批改系统、个性化学习推荐系统等。此外，其在多模态学习中的应用也有助于提升机器人和自动驾驶系统中的视觉推理能力，增强这些系统在复杂环境中的决策和问题解决能力。

衍生相关工作

MathVerse数据集的推出激发了大量相关研究工作，特别是在多模态学习和视觉推理领域。许多研究者基于该数据集开发了新的模型和算法，以提升多模态大语言模型在视觉数学问题解决中的表现。此外，其提出的链式推理（CoT）评估策略也被广泛应用于其他多模态任务的评估中，推动了多模态学习评估方法的进步。这些衍生工作不仅丰富了多模态学习的理论体系，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集