VideoMathQA

github2025-06-06 更新2025-06-07 收录

下载链接：

https://github.com/mbzuai-oryx/VideoMathQA

下载链接

链接失效反馈

官方服务：

资源简介：

VideoMathQA是一个旨在评估现实世界教育视频中数学推理能力的基准数据集。它要求模型从视觉、音频和文本三种模态中跨时间解释和整合信息。该基准解决了‘多模态干草堆中的针’问题，其中关键信息稀疏且分布在不同的模态和视频时刻。

VideoMathQA is a benchmark dataset designed to evaluate the mathematical reasoning ability in real-world educational videos. It necessitates models to interpret and integrate information across visual, auditory, and textual modalities over time. This benchmark addresses the 'needle in a multi-modal haystack' problem, where critical information is sparse and distributed across different modalities and video moments.

创建时间：

2025-06-05

原始信息汇总

VideoMathQA 数据集概述

基本信息

数据集名称: VideoMathQA
开发团队: MBZUAI, University of California Merced, Google Research, Australian National University, Linköping University
主要贡献者: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
论文链接: https://arxiv.org/abs/2506.05349
项目网站: https://mbzuai-oryx.github.io/VideoMathQA
数据集访问: https://huggingface.co/datasets/MBZUAI/VideoMathQA
官方评估框架: lmms-eval

数据集简介

VideoMathQA 是一个用于评估真实世界教育视频中数学推理能力的基准测试。它要求模型从视觉、音频和文本三种模态中跨时间解释和整合信息。该基准测试解决了多模态海量信息中的关键信息提取问题，其中关键信息稀疏且分布在不同的模态和时间点。

主要特点

多模态推理: 关键信息稀疏分布在视觉、文本和音频中，需要模型具备细粒度视觉理解、多模态整合和推理能力。
三种推理类型:
- 问题聚焦型: 问题明确，可通过直接观察和推理解决。
- 概念迁移型: 将演示的方法或原理应用于新问题。
- 深度教学理解型: 需要理解长篇幅教学内容，解释部分解决步骤并完成解答。
多样化评估维度:
- 数学概念: 涵盖几何、统计、算术和图表等10个领域。
- 视频时长: 从10秒到1小时不等，分为短、中、长三类。
- 难度级别: 分为不同难度等级。
- 推理类型: 涵盖多种推理方式。
高质量人工标注: 包含420个专家精心设计的问题，每个问题有五个选项、正确答案和详细的思维链（CoT）步骤。总计2,945个推理步骤，反映了920+小时的专家标注工作。

数据集统计与分析

数学概念分布: 涵盖10个数学领域，显示多模态模型在数学推理上的显著差距。
视频时长分布: 从10秒到1小时不等。
标注流程: 采用三阶段标注流程，由科学专业毕业生执行，每个阶段严格质量控制。

模型性能分析

视频长度影响: 模型在中等长度视频上表现最佳。
字幕影响: 包含字幕时整体准确率提高。
帧数影响: 输入帧数增加时性能提升。
模型局限性分析:
- 视频级理解对成功至关重要。
- 难度与模型性能呈相关性。
- 大多数错误源于问题误解或关键多模态线索缺失。

引用

bibtex @article{rasheed2025videomathqa, title={VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos}, author={Rasheed, Hanoona and Shaker, Abdelrahman and Tang, Anqi and Maaz, Muhammad and Yang, Ming-Hsuan and Khan, Salman and Khan, Fahad S.}, journal={arXiv preprint arXiv:2506.05349}, year={2025} }

致谢

感谢 LMMs-Lab 的开源贡献，特别是 LMMs-Eval，用于模型评估并作为官方工具包。

搜集汇总

数据集介绍

构建方式

VideoMathQA数据集的构建基于多模态视频理解的前沿研究需求，采用严格的三阶段专家标注流程。研究团队从真实教育视频中精选素材，通过科学毕业生团队对420个问题进行了920余小时的专业标注，每个问题均包含五个选项、正确答案及详细的思维链推理步骤。标注过程特别关注信息在视觉、文本和音频模态中的稀疏分布特性，构建了覆盖10秒至1小时不同时长视频的多样化样本库，并按照数学概念、视频时长、难度等级和推理类型四个维度进行系统分类。

特点

该数据集的核心价值体现在其首创的多模态数学推理评估框架上，包含视觉、听觉和文本三种信息通道的复杂交互。数据集精心设计了问题聚焦、概念迁移和深度教学理解三种推理类型，覆盖几何学、统计学、算术等10个数学领域。特别值得注意的是，数据集包含2945个手工标注的推理步骤，形成了层次化的难度体系，从短时观察到长时程推理均有涉及，为评估模型在跨模态时序推理能力方面提供了精细的测量工具。

使用方法

研究者可通过Hugging Face平台获取VideoMathQA数据集，官方评估推荐使用lmms-eval框架实现。使用时应充分关注视频时长、字幕信息和帧数等变量对模型性能的影响，建议按照问题类型和难度等级进行分层测试。对于深度分析方法，可参考数据集提供的2945个推理步骤标注，通过思维链分解来诊断模型在多模态理解中的具体缺陷。该数据集特别适合用于检验模型在长视频中捕捉关键信息的能力，以及跨模态信息整合的鲁棒性评估。

背景与挑战

背景概述

VideoMathQA是由MBZUAI、加州大学默塞德分校、谷歌研究院、澳大利亚国立大学以及林雪平大学的研究团队联合推出的多模态数学推理基准数据集，旨在评估模型在真实教育视频中的数学推理能力。该数据集创建于2025年，核心研究问题聚焦于跨视觉、听觉和文本三种模态的信息整合与时空推理，填补了多模态数学理解领域的空白。通过420道专家标注的问题和2945个推理步骤，VideoMathQA为衡量模型在复杂教育场景下的表现提供了标准化评估框架，对推动多模态大模型在STEM教育中的应用具有重要意义。

当前挑战

该数据集主要面临两大挑战：在领域问题层面，解决'多模态干草堆寻针'难题要求模型从稀疏分布的视觉、文本和音频线索中精准提取数学概念，这对现有模型的细粒度理解能力和跨模态对齐机制提出严峻考验；在构建过程中，长达920小时的人工标注需要协调数学专家与多媒体处理专家的双重知识，确保每个推理步骤在时序逻辑和学科准确性上达到严格标准，同时处理从10秒到1小时不等的视频时长差异也为数据标准化带来显著困难。

常用场景

经典使用场景

在多媒体教育领域，VideoMathQA数据集被广泛应用于评估模型在复杂视频环境中进行数学推理的能力。该数据集通过整合视觉、音频和文本三种模态的信息，模拟了真实教育场景中信息分散且跨时间分布的特点。研究者利用这一数据集测试模型在解决数学问题时是否能够准确捕捉关键信息并进行有效推理，尤其在处理长视频和跨模态信息时表现尤为突出。

衍生相关工作

围绕VideoMathQA数据集，研究者已开展多项经典工作。其中包括开发新型的多模态融合架构以提升数学推理性能，以及探索链式推理（CoT）在视频理解中的应用。这些工作不仅推动了多模态学习算法的发展，还为教育技术领域提供了宝贵的实践经验。部分成果已通过LMMs-Eval框架实现标准化评估，形成了完整的生态系统。

数据集最近研究