five

MV-MATH|数学问题解决数据集|多模态学习数据集

收藏
arXiv2025-02-28 更新2025-03-04 收录
数学问题解决
多模态学习
下载链接:
http://arxiv.org/abs/2502.20808v1
下载链接
链接失效反馈
资源简介:
MV-MATH是由中国科学院自动化研究所MAIS团队精心构建的一个数学问题数据集,包含2009个高质量的问题,每个问题均融入了多张图片与文本的交错的多元模式,来源于真实的K-12教学场景。数据集涵盖了11个学科领域,分为三个难度等级,并包括多种问题类型,如选择题、自由回答题和多变步问题,为评估多模态大型语言模型在多视觉情景下的数学推理能力提供了一个全面严谨的基准。
提供机构:
中国科学院自动化研究所
创建时间:
2025-02-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
MV-MATH数据集的构建始于收集超过30万个涵盖K-12场景的数学问题,包括选择题和自由格式问题,这些问题以PDF格式存储。通过Mathpix API提取文本内容和图像,并将数据组织成JSON格式。然后,根据图像数量,确定了初步的多图像问题集。为了确保多图像数学数据的高质量,采用了三阶段的数据筛选策略。首先验证文本和图像之间的对齐情况,然后检查文本字段是否缺失或语义不准确,最后手动过滤掉低质量的图像。使用这些样本进行难度分级、科目分类和图像相关性分类,并进行人工验证以确保准确性。
使用方法
为了评估模型在多模态数学推理中的表现,进行了广泛的实验,包括18个开源模型和7个API模型。评估涵盖了三种条件:纯文本、文本加图像标题和文本加图像。结果显示,模型在图像依次输入时表现更好,而相互依赖的图像任务更具挑战性。此外,即使是表现最好的模型,Claude 3.5-Connect,也远低于人类水平的表现,这突出了数学多视觉推理能力需要改进的空间。
背景与挑战
背景概述
随着多模态大型语言模型(MLLMs)在自然语言理解、问答和代码生成等任务中的出色表现,其在数学推理领域的应用也引起了广泛关注。现有的多模态数学推理数据集,如MathVista、MathVision和MathVerse等,大多局限于单视觉场景,与现实世界中常见的多视觉数学应用场景存在较大差距。为了填补这一空白,Peijie Wang等人于2025年提出了MV-MATH数据集,该数据集包含2009个高质量的数学问题,每个问题都结合了多个图像和文本,源于真实的K-12场景,并辅以详细的注释。MV-MATH涵盖了选择题、自由回答和多步问题,跨越11个学科领域和3个难度级别,为评估MLLMs在多视觉环境下的数学推理能力提供了一个全面而严格的基准。
当前挑战
MV-MATH数据集的挑战主要体现在以下几个方面:首先,MLLMs在多视觉数学任务中面临着显著的挑战,与人类在MV-MATH上的能力相比存在较大差距;其次,模型在图像依赖型任务中的表现不如图像独立型任务;此外,模型对图像的输入方法也会影响其性能,序列图像输入方法通常优于合并输入方法;最后,尽管CoT提示在某些情况下可以提高模型性能,但并非总是有效,且在加入2-shot提示后,模型性能往往会下降。
常用场景
经典使用场景
在多模态数学推理领域,MV-MATH数据集被广泛用于评估多模态大型语言模型(MLLMs)在多视觉情境下的数学推理能力。该数据集包含2,009个高质量的数学问题,每个问题都融合了多个图像和文本,覆盖了11个学科领域和3个难度级别,为MLLMs的多视觉数学推理提供了一个全面和严格的基准。通过在MV-MATH上的广泛实验,研究人员观察到MLLMs在多视觉数学任务中面临着巨大的挑战,其性能与人类能力相比存在显著差距。
解决学术问题
MV-MATH数据集解决了现有多模态数学基准主要集中在单一视觉情境的问题。在现实世界的数学应用中,多视觉情境更为常见,而现有的基准数据集大多仅限于单图像输入。MV-MATH通过引入多图像和多文本的问题,使得MLLMs能够更好地理解和处理多视觉情境下的数学问题,从而更接近现实世界的数学应用。此外,该数据集还揭示了MLLMs在处理图像依赖任务、多步推理以及不同难度级别问题上的性能差异,为学术研究提供了重要的参考和启示。
实际应用
MV-MATH数据集在实际应用中具有重要的价值。例如,在教育领域,它可以用于开发智能教育软件,帮助学生在多视觉情境下更好地理解和学习数学。在工业领域,它可以用于开发智能机器人,使其能够更好地理解和处理多视觉情境下的数学问题。此外,该数据集还可以用于开发智能助手,帮助人们在日常生活中更好地理解和处理数学问题。
数据集最近研究
最新研究方向
随着多模态大语言模型(MLLMs)在视觉情境下的数学推理能力展现出的巨大潜力,现有的多模态数学基准数据集大多局限于单一视觉情境,这与现实世界中数学应用常见的多视觉场景存在差距。为了填补这一空白,研究人员提出了MV-MATH数据集,这是一个精心策划的数据集,包含2009个高质量的数学问题,每个问题都结合了多个图像和文本,并来自真实的K-12场景,并配备了详细的注释。MV-MATH包括选择题、自由式和多步骤问题,涵盖3个难度级别和11个学科领域,为评估MLLMs在多视觉情境下的数学推理能力提供了一个全面且严格的基准。通过广泛的实验,研究人员发现MLLMs在多视觉数学任务中面临重大挑战,与人类能力相比存在相当大的性能差距。此外,研究人员还分析了各种模型的性能和错误模式,为MLLMs在多视觉设置中的数学推理能力提供了见解。
相关研究论文
  • 1
    MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts中国科学院自动化研究所 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录