five

Video-MMLU

收藏
arXiv2025-04-21 更新2025-04-23 收录
下载链接:
http://arxiv.org/abs/2504.14693v1
下载链接
链接失效反馈
官方服务:
资源简介:
Video-MMLU是一个大规模的多学科讲座理解基准数据集,由浙江大学、华盛顿大学、伊利诺伊大学厄巴纳-香槟分校和Lambda, Inc.共同构建。该数据集包含数学、物理和化学三个学科领域的1065段讲座视频,旨在评估大型多模态模型在理解多学科讲座方面的能力。视频内容涵盖定理演示和问题解决,不仅需要模型具备强大的视觉感知能力,还需具备特定领域的推理能力。数据集通过多阶段注释流程构建,包含详细的视频字幕和15个推理性问题,以评估模型在感知和推理方面的表现。
提供机构:
浙江大学, 华盛顿大学, 伊利诺伊大学厄巴纳-香槟分校, Lambda, Inc.
创建时间:
2025-04-21
搜集汇总
数据集介绍
main_image_url
构建方式
Video-MMLU数据集的构建采用了多阶段注释流程,通过YouTube Data API检索并筛选了1,065个涵盖数学、物理和化学学科的教育视频。视频长度限制在4分钟内以确保标注一致性,并采用基于运动节奏的自定义关键帧提取方法,采样率从每秒1帧到每5秒1帧不等。标注流程包含两个核心任务:通过多模态模型生成结构化视频描述作为'笔记'评估视觉感知能力,以及设计15个推理问题作为'测验'评估内容理解深度。视频描述整合了Aria的全局运动特征、GPT-4o的帧级描述和Claude-3.5-sonnet的语义融合,并通过自动优化策略确保公式和数字的OCR准确性。
使用方法
使用Video-MMLU需遵循双轨评估协议:在视觉描述任务中,模型需基于均匀采样的32帧生成结构化叙述,采用VDCscore指标将长描述分解为15个QA对进行分项评分;在推理问答任务中,要求模型在禁用字幕的条件下回答限制15词以内的简答题,通过Qwen2.5-72B作为评判助手确保公正性。为适配不同规模模型,允许对图像基LMM压缩至4帧输入,并推荐采用LMMs-Eval工具包进行标准化测试。特别建议分析模型在数学符号识别与跨模态因果推理方面的表现差异。
背景与挑战
背景概述
Video-MMLU是由浙江大学、华盛顿大学、伊利诺伊大学厄巴纳-香槟分校及Lambda公司联合研发的多学科讲座理解基准数据集,于2025年4月通过arXiv预印本首次发布。该数据集聚焦数学、物理和化学领域的教学视频内容理解,旨在评估大型多模态模型(LMMs)在跨学科知识密集型场景下的感知与推理能力。其创新性在于将定理证明和问题解决过程转化为结构化评估任务,通过15,746个推理问答对和1,065个精细视频描述构建了当前最全面的教育视频理解基准。该数据集填补了现有评测体系在动态教学场景理解的空白,为教育智能化应用提供了关键研究基础设施。
当前挑战
Video-MMLU面临双重核心挑战:在领域问题层面,需解决教学视频中符号密集(如数学公式)、时空推理复杂(如化学实验演示)以及跨模态对齐(视觉-语音-文本)等难题,当前模型准确率仅10%-50%;在构建过程中,面临视频关键帧采样策略优化(平衡信息密度与连续性)、多模态标注一致性(特别是动态OCR文本识别)以及推理问题自动生成的质量控制等挑战。数据集通过分层标注流水线和混合专家模型验证机制,确保了1,065个视频中489词均长的描述文本与学科知识的精确对应。
常用场景
经典使用场景
Video-MMLU作为多学科讲座理解的大规模基准,专注于评估大型多模态模型(LMMs)在数学、物理和化学等学科讲座视频中的感知与推理能力。其经典使用场景包括模型生成详细视频字幕以评估视觉感知能力,以及通过回答推理问题来测试内容理解深度。这一场景特别适用于教育技术领域,旨在提升模型对复杂学术内容的动态理解。
解决学术问题
Video-MMLU解决了多模态模型在知识密集型和强推理内容理解上的不足,填补了现有基准在动态问题解决和连续推理评估上的空白。通过整合文本、方程和视觉演示的密集信息,该数据集挑战模型不仅识别视觉内容,还需进行跨学科复杂教育材料的推理,推动了LMMs在真实教育场景中的应用潜力。
实际应用
在实际应用中,Video-MMLU可赋能智能教育助手开发,支持自动生成讲座摘要、实时答疑和个性化学习路径推荐。其针对定理证明和问题解决的视频标注,为远程教育平台提供了自动内容解析工具,显著提升视频检索效率和知识传递效果,尤其在数学等符号密集型学科中表现突出。
数据集最近研究
最新研究方向
随着多模态大模型(LMMs)在视频理解领域的快速发展,Video-MMLU数据集的提出填补了多学科讲座视频理解评估的空白。该数据集聚焦数学、物理和化学等学科的教学视频,要求模型不仅具备视觉感知能力,还需进行复杂的知识推理。近期研究重点探索了视觉令牌数量与基础大语言模型(LLMs)对性能的影响,揭示了多模态感知与推理之间的交互机制。超过90个开源和专有模型的评估结果表明,当前模型在应对讲座视频的认知挑战方面仍存在显著局限,尤其在需要感知与推理协同的任务中表现欠佳。这一研究为教育场景下多模态模型的实用化提供了重要基准,同时也凸显了动态OCR识别、抽象符号推理等亟待突破的技术难点。
相关研究论文
  • 1
    Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark浙江大学, 华盛顿大学, 伊利诺伊大学厄巴纳-香槟分校, Lambda, Inc. · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作