five

MV-MATH|数学教育数据集|多模态学习数据集

收藏
arXiv2025-03-03 更新2025-03-05 收录
数学教育
多模态学习
下载链接:
https://eternal8080.github.io/MV-MATH.github.io/
下载链接
链接失效反馈
资源简介:
MV-MATH是一个精心策划的数据集,包含2009个高质量的数学问题,每个问题都集成了多张图片和文本,来源于真实的K-12场景,并附有详细的注释。数据集包含多种题型,涵盖11个学科领域,分为3个难度级别。该数据集旨在评估多模态大型语言模型在多视觉情境下的数学推理能力。
提供机构:
中国科学院自动化研究所
创建时间:
2025-02-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
MV-MATH数据集的构建过程包括数据收集、数据筛选和数据标注三个阶段。首先,研究人员从Zujuan网站收集了约30万个涵盖12年级场景的数学问题,使用Mathpix API提取文本内容和图像。然后,通过三阶段的数据筛选策略,包括文本与图像的匹配验证、文本缺失和语义准确性检查以及手动排除低质量图像,确保了数据集的高质量。最后,研究人员对每个问题进行了难度分级、科目分类和图像相关性分类,并进行了人工验证以确保分类的准确性。
使用方法
使用MV-MATH数据集进行评估时,研究人员进行了广泛的实验,包括多种模型、不同条件下的评估和针对不同问题的分析。模型性能评估涵盖了三种条件:仅文本、文本加图像标题和文本加图像。结果显示,模型在处理多图像任务时面临重大挑战,与人类能力相比存在显著差距。通过深入分析,研究人员提供了关于模型在多图像数学推理方面的优势和局限性的见解,为未来模型的改进提供了方向。
背景与挑战
背景概述
在多模态大语言模型(MLLMs)在数学推理方面展现出令人瞩目的能力的同时,现有的多模态数学评估数据集大多局限于单一视觉场景。然而,现实世界中的数学应用往往涉及多视觉场景。为了填补这一空白,Peijie Wang等人于2025年创建了MV-MATH数据集。该数据集精心策划了2009个高质量的数学问题,每个问题都融合了多张图像和文本,来自真实的K-12场景,并辅以详细的注释。MV-MATH包括选择题、自由回答和多步骤问题,涵盖11个学科领域和3个难度级别,旨在全面评估MLLMs在多视觉场景中的数学推理能力。该数据集的创建对于推动MLLMs在多视觉数学推理方面的发展具有重要意义。
当前挑战
MV-MATH数据集在解决领域问题方面面临的主要挑战包括:1) 所解决的领域问题是多视觉场景下的数学推理,需要模型能够理解和处理多张图像之间的关系,这与现实世界中的数学应用更为贴近。2) 构建过程中所遇到的挑战包括:数据收集和标注的准确性,需要确保每个问题的答案和图像都经过至少两名标注者的交叉验证;多图像输入方法的优化,需要探究如何更好地利用图像的顺序和位置信息;以及模型在多图像数学推理任务中的性能提升,目前模型的性能与人类水平相比仍有较大差距,需要在推理能力、视觉感知和知识储备等方面进行改进。
常用场景
经典使用场景
在多模态数学推理领域,MV-MATH数据集被广泛应用于评估和训练多模态大型语言模型(MLLMs)在多视觉环境中的数学推理能力。该数据集包含了来自真实K-12场景的2,009个高质量的数学问题,每个问题都集成了多个图像和文本,并附有详细的注释。MV-MATH数据集包括选择题、自由形式题和多步骤题,覆盖了11个学科领域和3个难度级别,为评估MLLMs在多视觉环境中的数学推理能力提供了一个全面而严格的基准。
解决学术问题
MV-MATH数据集解决了现有多模态数学基准在单视觉环境下的局限性,填补了多视觉场景数学推理评估的空白。该数据集通过引入多图像和多文本的复杂问题,挑战了MLLMs在处理跨图像依赖性任务时的能力,并揭示了模型在多视觉数学任务中与人类能力相比存在的显著差距。此外,MV-MATH数据集还通过细粒度的分类和多样化的问题类型,提供了深入分析模型性能和错误模式的可能。
实际应用
MV-MATH数据集在实际应用中,可用于改进和优化多模态大型语言模型在数学推理任务上的性能。通过在MV-MATH上进行训练和评估,模型可以学习更好地理解和处理多视觉环境中的数学问题,从而提高在现实世界中的应用能力。例如,在数学教育领域,MV-MATH可以帮助开发更智能的教育软件,提供个性化的学习体验,并辅助教师评估学生的数学推理能力。
数据集最近研究
最新研究方向
在多模态数学推理领域,最新的研究集中在如何让大型语言模型(MLLMs)在多视觉环境中更好地进行数学推理。MV-MATH数据集的提出填补了现有多模态数学基准在多视觉场景下的空白,为评估MLLMs的多视觉数学推理能力提供了一个全面的基准。该数据集包含2,009个高质量的数学问题,每个问题都集成了多个图像和文本,并提供了详细的注释。通过在MV-MATH数据集上的实验,研究者们观察到MLLMs在多视觉数学任务中面临着巨大的挑战,与人类能力相比存在着显著的性能差距。此外,研究者们还分析了不同模型的性能和错误模式,为MLLMs在多视觉环境下的数学推理能力提供了深入的见解。未来,研究将着重于提高MLLMs在处理复杂图像和理解多图像之间关系方面的能力,以及增强模型在多模态数学推理任务中的泛化能力。
相关研究论文
  • 1
    MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts中国科学院自动化研究所 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录