five

VideoMathQA

收藏
arXiv2025-06-06 更新2025-06-07 收录
下载链接:
https://mbzuai-oryx.github.io/VideoMathQA
下载链接
链接失效反馈
官方服务:
资源简介:
VideoMathQA是一个用于评估模型在视频中执行跨模态推理能力的基准数据集,涵盖了10个不同的数学领域,视频时长从10秒到1小时不等。数据集包含超过920人小时的专家注释,旨在解决现实世界场景中的数学推理问题,包括直接解决问题、概念转移和深度理解。每个问题都包含多步推理注释,以实现对模型能力的精细诊断。数据集旨在解决现有方法在处理视频中的数学推理时的局限性,并为评估模型在处理跨时态和模态丰富的数学问题设置时的推理能力提供了一个系统的评估框架。

VideoMathQA is a benchmark dataset developed to evaluate a model's cross-modal reasoning abilities in video scenarios. It covers 10 distinct mathematical domains, with video durations ranging from 10 seconds to 1 hour. The dataset contains over 920 person-hours of expert annotations, and is designed to tackle mathematical reasoning problems in real-world settings, including direct problem solving, concept transfer, and in-depth understanding. Each question is equipped with multi-step reasoning annotations to enable fine-grained diagnostic analysis of model capabilities. This dataset aims to mitigate the limitations of existing methods when handling mathematical reasoning in videos, and provides a systematic evaluation framework for assessing a model's reasoning performance when dealing with cross-temporal and modality-rich mathematical problem tasks.
提供机构:
加州大学默塞德分校、谷歌研究、澳大利亚国立大学、林雪平大学
创建时间:
2025-06-06
搜集汇总
数据集介绍
构建方式
VideoMathQA数据集的构建过程体现了严谨的科学态度与精细的工程实践。研究团队通过三阶段标注流程:首先基于YouTube API筛选具有丰富时间动态的教学视频,确保内容需跨模态整合才能解答;随后由理科研究生耗时920人时精心设计420个视频-问题对,覆盖算术、几何等10个数学领域;最终通过独立标注者撰写2,945个逐步推理步骤,形成可诊断模型中间推理能力的细粒度标注体系。视频时长从10秒到1小时不等,特别包含57%的高难度问题,通过多轮质量校验确保数据可靠性。
特点
该数据集最显著的特点是实现了多模态时序推理的基准创新。不同于静态图像数学数据集,VideoMathQA要求模型同步解析视频中的动态图表演变、手写公式推导和口语解说,其中关键信息可能稀疏分布在长达1小时的时序中。问题设计涵盖直接解题、概念迁移和深度理解三类推理场景,特别设置29%需要跨模态对齐的'干草堆寻针'式难题。每个样本配备4-10步专家标注的推理链,支持对模型认知过程的显微级评估。
使用方法
使用VideoMathQA需采用多维度评估策略:基础的多选题(MCQ)测试可快速衡量模型表现,而改进的多二元评估(MBin)通过构建答案-干扰项组合有效降低猜测概率。研究者可启用思维链(CoT)提示要求模型生成推理过程,并将其与标注的2,945个黄金步骤比对,使用Qwen-3-4B作为评判模型进行0-10分制打分。评估时建议同步输入视频帧与字幕,考察模型整合视听线索的能力,并通过预定义的7类错误标签(如视觉误读、概念错用等)分析失败案例。
背景与挑战
背景概述
VideoMathQA是由MBZUAI、加州大学默塞德分校、Google Research、澳大利亚国立大学和瑞典林雪平大学的研究团队于2025年6月提出的一个多模态视频数学推理基准数据集。该数据集旨在解决传统数学推理基准(如MathQA、ChartQA和MathVista)在静态图像或文本环境下无法捕捉的动态视频场景中的数学问题。VideoMathQA包含420个手工标注的真实世界视频-问题对,覆盖10个数学领域(如几何、算术、微积分、统计、图论等),视频时长从10秒到超过1小时不等。数据集通过三个核心推理场景(直接问题解决、概念迁移和深度教学理解)评估模型在多模态(视觉、音频、文本)和时间维度上的数学推理能力。
当前挑战
VideoMathQA面临的挑战主要包括两个方面:1) 领域问题的挑战:视频中的数学推理需要模型在动态变化的视觉信息(如手写或数字文本、图表)、非线性的语音解释和分散的时间上下文中提取和整合关键信息,这比静态图像或文本环境下的数学推理更为复杂。2) 构建过程的挑战:数据集的构建需要大量专家标注工作(总计超过920人小时的标注时间),包括视频选择、问题-答案对标注和分步推理注释。此外,确保问题设计能够真实反映现实教学场景(如直接问题解决、概念迁移和深度教学理解)也是一个重要挑战。
常用场景
经典使用场景
VideoMathQA数据集在数学推理领域具有广泛的应用价值,尤其在多模态视频理解任务中表现突出。该数据集通过整合视觉、音频和文本信息,为模型提供了丰富的上下文环境,使其能够在动态视频中进行复杂的数学推理。经典使用场景包括教育视频中的数学问题解答,例如在几何、算术和微积分等领域,模型需要理解视频中的动态图表、手写公式和语音解释,从而进行多步推理和问题求解。
解决学术问题
VideoMathQA数据集解决了多模态数学推理中的关键学术问题,尤其是在动态视频环境下信息整合的挑战。传统数学推理数据集主要基于静态图像或文本,难以捕捉视频中随时间演变的数学信息。该数据集通过提供高质量的多模态标注,支持模型在复杂场景中进行直接问题求解、概念迁移和深度教学理解。其意义在于推动了跨模态推理研究,为模型在真实教育场景中的应用提供了基准测试框架。
衍生相关工作
围绕VideoMathQA数据集,研究者们已经开展了一系列相关工作。InternVL3和Qwen2.5-VL等开源模型在该数据集上进行了性能优化,推动了视频多模态推理技术的发展。同时,基于该数据集的评估方法创新,如多二进制评估(MBin)和思维链(CoT)评估,为后续研究提供了方法论参考。这些工作不仅拓展了数据集的应用范围,也为数学推理模型的性能提升指明了方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作