MathLLMs/MathVision

Hugging Face2025-11-27 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/MathLLMs/MathVision

下载链接

链接失效反馈

资源简介：

MATH-Vision (MATH-V) 数据集是一个精心策划的集合，包含3,040个高质量的数学问题，这些问题来源于真实的数学竞赛，并带有视觉上下文。该数据集涵盖了16个不同的数学学科，并分为5个难度级别，旨在全面评估大型多模态模型（LMMs）在视觉上下文中的数学推理能力。通过广泛的实验，揭示了当前LMMs与人类在MATH-V上的表现差距，强调了进一步改进LMMs的必要性。

提供机构：

MathLLMs

原始信息汇总

数据集概述

基本信息

名称: MATH-V
许可证: MIT
语言: 英语 (en)
大小: 1K<n<10K

数据集内容

任务类别:
- 问答 (question-answering)
- 多选题 (multiple-choice)
- 视觉问答 (visual-question-answering)
- 文本生成 (text-generation)
主题:
- 数学 (mathematics)
- 推理 (reasoning)
- 多模态问答 (multi-modal-qa)
- 数学问答 (math-qa)
- 图形问答 (figure-qa)
- 几何问答 (geometry-qa)
- 数学应用题 (math-word-problem)
- 教科书问答 (textbook-qa)
- 视觉问答 (vqa)
- 几何图形 (geometry-diagram)
- 合成场景 (synthetic-scene)
- 图表 (chart)
- 图形 (plot)
- 科学图形 (scientific-figure)
- 表格 (table)
- 函数图形 (function-plot)
- 抽象场景 (abstract-scene)
- 谜题测试 (puzzle-test)
- 文档图像 (document-image)
- 科学 (science)

数据集结构

配置:
- 名称: default
- 数据文件:
  - 分割: testmini
    - 路径: data/testmini-*
  - 分割: test
    - 路径: data/test-*

数据集特点

问题数量: 3,040个高质量数学问题
学科覆盖: 16个不同的数学学科
难度级别: 5个难度级别
来源: 真实数学竞赛

数据集用途

评估大型多模态模型 (LMMs) 的数学推理能力
提供全面的挑战，以推动LMMs的进一步发展

数据集评估

性能对比: 当前LMMs与人类性能存在显著差距
详细分类: 允许进行彻底的错误分析，为未来的研究和开发提供指导

数据集示例

示例学科: 分析几何、拓扑学、图论

数据集引用

引用格式:

@misc{wang2024measuring, title={Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset}, author={Ke Wang and Junting Pan and Weikang Shi and Zimu Lu and Mingjie Zhan and Hongsheng Li}, year={2024}, eprint={2402.14804}, archivePrefix={arXiv}, primaryClass={cs.CV} }

AI搜集汇总

数据集介绍

构建方式

MATH-Vision数据集的构建，是通过精心挑选3000余道源自真实数学竞赛的高质量数学问题，并配备视觉上下文，覆盖了16个不同的数学学科领域，难度分为5个等级。这些问题经过专家生成和筛选，确保了数据集的质量和多样性，旨在为评估大型多模态模型（LMMs）的数学推理能力提供全面且多样化的挑战。

使用方法

使用MATH-Vision数据集时，研究者可以访问其提供的测试集和测试迷你集，这些数据集可用于评估模型的数学推理能力。数据集以MIT许可证授权，便于研究者和开发者使用和共享。用户可以通过HuggingFace的datasets库直接加载该数据集，方便快捷地进行模型训练和评估。

背景与挑战

背景概述

MATH-Vision（MATH-V）数据集，是在数学与多模态人工智能领域背景下，由Ke Wang等研究人员于2024年创建的。该数据集旨在评估大型多模态模型（LMMs）在视觉环境下的数学推理能力，收集了3040个源自真实数学竞赛的高质量数学问题，覆盖了16个不同的数学学科，并分为5个难度级别。MATH-V数据集的构建，对于推动相关领域的研究，如数学问题的自动解答、多模态理解等，具有重大影响力。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1) 收集具有广泛代表性和多样性的数学问题，确保覆盖不同的数学领域和难度级别；2) 设计适用于多模态数学推理任务的评价指标和基准，以准确评估模型性能；3) 处理视觉信息的复杂性和多变性，以及数学表达式和图表的解析和理解。在所解决的领域问题方面，MATH-V数据集面临的最大挑战是提高模型在视觉数学问题上的准确率和泛化能力，缩小与人类表现的差距。

常用场景

经典使用场景

MATH-Vision数据集作为数学与视觉推理领域的重要资源，其经典使用场景主要在于评估大型多模态模型（LMMs）在视觉情境下的数学推理能力。通过对该数据集的深入分析，研究者能够训练并测试模型在解析几何、拓扑学、图论等数学分支中的表现，从而推动模型数学推理能力的提升。

解决学术问题

该数据集解决了传统数学推理任务中视觉信息处理不足的问题，为学术研究提供了包含丰富视觉元素的数学题目，有助于评估模型在面对复杂、抽象数学问题时的表现，进而推动多模态模型在数学教育、问题解决等领域的发展。

实际应用

在实际应用中，MATH-Vision数据集可以被用于开发能够辅助数学学习和研究的多模态智能系统，例如智能教学助手、自动数学问题解答系统等，这些系统将有助于提高数学教育的效率和质量。

数据集最近研究