MathLLMs/MathVision
收藏Hugging Face2025-11-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/MathLLMs/MathVision
下载链接
链接失效反馈资源简介:
MATH-Vision (MATH-V) 数据集是一个精心策划的集合,包含3,040个高质量的数学问题,这些问题来源于真实的数学竞赛,并带有视觉上下文。该数据集涵盖了16个不同的数学学科,并分为5个难度级别,旨在全面评估大型多模态模型(LMMs)在视觉上下文中的数学推理能力。通过广泛的实验,揭示了当前LMMs与人类在MATH-V上的表现差距,强调了进一步改进LMMs的必要性。
MATH-Vision (MATH-V) 数据集是一个精心策划的集合,包含3,040个高质量的数学问题,这些问题来源于真实的数学竞赛,并带有视觉上下文。该数据集涵盖了16个不同的数学学科,并分为5个难度级别,旨在全面评估大型多模态模型(LMMs)在视觉上下文中的数学推理能力。通过广泛的实验,揭示了当前LMMs与人类在MATH-V上的表现差距,强调了进一步改进LMMs的必要性。
提供机构:
MathLLMs
原始信息汇总
数据集概述
基本信息
- 名称: MATH-V
- 许可证: MIT
- 语言: 英语 (en)
- 大小: 1K<n<10K
数据集内容
- 任务类别:
- 问答 (question-answering)
- 多选题 (multiple-choice)
- 视觉问答 (visual-question-answering)
- 文本生成 (text-generation)
- 主题:
- 数学 (mathematics)
- 推理 (reasoning)
- 多模态问答 (multi-modal-qa)
- 数学问答 (math-qa)
- 图形问答 (figure-qa)
- 几何问答 (geometry-qa)
- 数学应用题 (math-word-problem)
- 教科书问答 (textbook-qa)
- 视觉问答 (vqa)
- 几何图形 (geometry-diagram)
- 合成场景 (synthetic-scene)
- 图表 (chart)
- 图形 (plot)
- 科学图形 (scientific-figure)
- 表格 (table)
- 函数图形 (function-plot)
- 抽象场景 (abstract-scene)
- 谜题测试 (puzzle-test)
- 文档图像 (document-image)
- 科学 (science)
数据集结构
- 配置:
- 名称: default
- 数据文件:
- 分割: testmini
- 路径: data/testmini-*
- 分割: test
- 路径: data/test-*
- 分割: testmini
数据集特点
- 问题数量: 3,040个高质量数学问题
- 学科覆盖: 16个不同的数学学科
- 难度级别: 5个难度级别
- 来源: 真实数学竞赛
数据集用途
- 评估大型多模态模型 (LMMs) 的数学推理能力
- 提供全面的挑战,以推动LMMs的进一步发展
数据集评估
- 性能对比: 当前LMMs与人类性能存在显著差距
- 详细分类: 允许进行彻底的错误分析,为未来的研究和开发提供指导
数据集示例
- 示例学科: 分析几何、拓扑学、图论
数据集引用
-
引用格式:
@misc{wang2024measuring, title={Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset}, author={Ke Wang and Junting Pan and Weikang Shi and Zimu Lu and Mingjie Zhan and Hongsheng Li}, year={2024}, eprint={2402.14804}, archivePrefix={arXiv}, primaryClass={cs.CV} }
AI搜集汇总
数据集介绍

构建方式
MATH-Vision数据集的构建,是通过精心挑选3000余道源自真实数学竞赛的高质量数学问题,并配备视觉上下文,覆盖了16个不同的数学学科领域,难度分为5个等级。这些问题经过专家生成和筛选,确保了数据集的质量和多样性,旨在为评估大型多模态模型(LMMs)的数学推理能力提供全面且多样化的挑战。
使用方法
使用MATH-Vision数据集时,研究者可以访问其提供的测试集和测试迷你集,这些数据集可用于评估模型的数学推理能力。数据集以MIT许可证授权,便于研究者和开发者使用和共享。用户可以通过HuggingFace的datasets库直接加载该数据集,方便快捷地进行模型训练和评估。
背景与挑战
背景概述
MATH-Vision(MATH-V)数据集,是在数学与多模态人工智能领域背景下,由Ke Wang等研究人员于2024年创建的。该数据集旨在评估大型多模态模型(LMMs)在视觉环境下的数学推理能力,收集了3040个源自真实数学竞赛的高质量数学问题,覆盖了16个不同的数学学科,并分为5个难度级别。MATH-V数据集的构建,对于推动相关领域的研究,如数学问题的自动解答、多模态理解等,具有重大影响力。
当前挑战
该数据集在构建过程中面临的挑战主要包括:1) 收集具有广泛代表性和多样性的数学问题,确保覆盖不同的数学领域和难度级别;2) 设计适用于多模态数学推理任务的评价指标和基准,以准确评估模型性能;3) 处理视觉信息的复杂性和多变性,以及数学表达式和图表的解析和理解。在所解决的领域问题方面,MATH-V数据集面临的最大挑战是提高模型在视觉数学问题上的准确率和泛化能力,缩小与人类表现的差距。
常用场景
经典使用场景
MATH-Vision数据集作为数学与视觉推理领域的重要资源,其经典使用场景主要在于评估大型多模态模型(LMMs)在视觉情境下的数学推理能力。通过对该数据集的深入分析,研究者能够训练并测试模型在解析几何、拓扑学、图论等数学分支中的表现,从而推动模型数学推理能力的提升。
解决学术问题
该数据集解决了传统数学推理任务中视觉信息处理不足的问题,为学术研究提供了包含丰富视觉元素的数学题目,有助于评估模型在面对复杂、抽象数学问题时的表现,进而推动多模态模型在数学教育、问题解决等领域的发展。
实际应用
在实际应用中,MATH-Vision数据集可以被用于开发能够辅助数学学习和研究的多模态智能系统,例如智能教学助手、自动数学问题解答系统等,这些系统将有助于提高数学教育的效率和质量。
数据集最近研究
最新研究方向
MathLLMs/MathVision数据集近期成为多模态数学推理研究的热点,该数据集汇集了来自真实数学竞赛的高质量数学问题,涵盖了16个不同的数学学科和5个难度级别。最新的研究集中在评估大型多模态模型(LMMs)在视觉环境下的数学推理能力,揭示出当前LMMs与人类表现之间的显著差距,从而推动了对LMMs进一步发展的迫切需求。近期,研究者们通过该数据集不断刷新最佳性能记录,如Seed1.5-VL模型在MATH-Vision上达到了68.7%的准确率,而MathCoder-VL-2B则在小型模型中表现最佳,准确率达到21.7%。这些成果不仅展现了多模态模型在数学推理领域的潜力,也促进了相关技术的快速发展。
以上内容由AI搜集并总结生成



