VideoMathQA
收藏Hugging Face2025-06-05 更新2025-06-06 收录
下载链接:
https://huggingface.co/datasets/MBZUAI/VideoMathQA
下载链接
链接失效反馈官方服务:
资源简介:
VideoMathQA是一个设计用于评估现实世界教育视频中的数学推理能力的基准数据集。它要求模型解释和整合跨越时间的三种模态信息:视觉、音频和文本。这个基准数据集解决了关键信息在多模态和时间上稀疏分布的难题。数据集中的问题分为三种推理类型:问题聚焦、概念转移和深度教学理解。每个问题根据数学概念、视频时长、难度和推理类型四个维度进行评估。数据集包含420个由专家策划的问题,每个问题有五个选项和一个正确答案,以及详细的解题步骤。
提供机构:
Mohamed Bin Zayed University of Artificial Intelligence
创建时间:
2025-06-02
搜集汇总
数据集介绍

构建方式
VideoMathQA数据集的构建依托于多模态教育视频内容,采用专家标注的三阶段流程。首先从真实教育视频中提取视觉、文本和音频信息,随后由科学专业毕业生进行问题设计与答案标注,每个问题均配备五个选项及详细思维链步骤。整个标注过程耗费920余小时,涵盖420个高质量问题与2945个推理步骤,并通过严格的质量控制确保数据可靠性。
特点
该数据集的核心特点在于其多模态时空推理挑战,信息稀疏分布于视觉、文本与音频流中,要求模型具备细粒度感知与跨模态整合能力。问题设计涵盖三种推理类型——问题聚焦、概念迁移与深度教学理解,并沿数学概念、视频时长、难度等级及推理类型四个维度进行系统分类,呈现了从10秒至1小时视频的广泛覆盖与10个数学领域的多样性。
使用方法
使用者可通过HuggingFace平台获取两种配置的测试集(mcq与multi_binary),并依托lmms-eval框架进行官方评估。模型需解析视频的多模态时序信息,结合问题上下文生成推理路径,最终从多项选择中确定答案。评估重点考察模型在跨模态信息检索、数学逻辑推导与长视频语义理解方面的综合能力。
背景与挑战
背景概述
VideoMathQA作为多模态数学推理评估基准,由MBZUAI研究团队于2024年推出,致力于解决教育视频中跨模态时序推理的核心问题。该数据集通过整合视觉、听觉与文本信息,构建了包含420个专家级标注问题的资源库,涵盖几何学、统计学等10个数学领域,视频时长从10秒至1小时不等。其创新性在于提出了'多模态干草堆寻针'范式,要求模型从稀疏分布的多模态信息中提取关键要素,推动了教育人工智能与多模态推理研究的深度融合。
当前挑战
该数据集首要挑战在于解决多模态时序信息融合的复杂性,模型需同步处理动态视觉内容、语音解说和文本提示的时空关联性。构建过程中面临标注质量的把控难题,每个问题需生成平均7步的推理链,总计2945个推理步骤耗费920余人时专家标注工作量。视频时长极差显著(10秒至1小时),要求标注者持续保持数学准确性与逻辑一致性,且需设计多维评估体系兼顾概念维度、难度层级与推理类型的平衡性。
常用场景
经典使用场景
在数学教育视频的多模态理解研究中,VideoMathQA数据集被广泛用于评估模型对视觉、文本和音频信息的时空整合能力。该数据集通过420个专家标注的问题,要求模型从长达一小时的视频片段中捕捉稀疏分布的关键信息,典型应用包括测试多模态大模型在几何问题求解、统计图表解析等场景中的跨模态推理性能。
解决学术问题
该数据集有效解决了多模态数学推理中的三大核心学术问题:一是突破传统单模态数学数据集的局限性,实现视觉-听觉-文本的联合建模;二是针对长视频中关键信息稀疏分布的“多模态干草堆难题”提供标准化评估框架;三是通过概念迁移和深度理解两类任务,推动机器学习模型从表层模式匹配向深层逻辑推理的范式转变。
衍生相关工作
该数据集催生了多模态推理领域的系列创新研究,包括基于时空注意力机制的视频数学推理模型VidMathNet、融合神经符号系统的多模态推理框架MathVLP,以及针对长视频处理的层次化记忆网络HMN-Math。这些工作通过引入动态模态加权、跨模态对齐和时序推理模块,显著提升了复杂数学问题的求解准确率。
以上内容由遇见数据集搜集并总结生成



