Video-MME

Name: Video-MME
Creator: 中国科学技术大学
Published: 2024-06-01 01:59:47
License: 暂无描述

arXiv2024-06-01 更新2024-06-21 收录

下载链接：

https://video-mme.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

Video-MME是由中国科学技术大学等机构联合创建的第一个全面评估多模态大型语言模型在视频分析中性能的基准数据集。该数据集包含900个视频，总时长256小时，涵盖6个主要视觉领域和30个子领域，视频时长从11秒到1小时不等，确保了场景的广泛适用性和上下文动态的稳健性。数据集不仅包括视频帧，还整合了字幕和音频等多模态输入，通过专家标注确保了高质量的标注。Video-MME旨在通过多模态输入和复杂视频内容，评估和推动多模态大型语言模型在视频理解领域的发展，解决现有模型在处理长序列和多模态数据时的性能瓶颈。

Video-MME is the first benchmark dataset jointly developed by the University of Science and Technology of China and other institutions for comprehensively evaluating the performance of multimodal large language models in video analysis. This dataset comprises 900 videos with a total duration of 256 hours, covering 6 major visual domains and 30 sub-domains. The videos range in length from 11 seconds to 1 hour, ensuring broad applicability across diverse scenarios and robust contextual dynamics. In addition to raw video frames, the dataset also integrates multimodal inputs including subtitles and audio, with high-quality annotations guaranteed by expert labeling. Video-MME is designed to evaluate and promote the development of multimodal large language models in the field of video understanding via multimodal inputs and complex video content, while addressing the performance bottlenecks faced by existing models when processing long sequences and multimodal data.

提供机构：

中国科学技术大学

创建时间：

2024-06-01

搜集汇总

数据集介绍

构建方式

在视频理解领域，多模态大语言模型的评估长期受限于静态图像分析，缺乏对时序动态数据的系统性考察。Video-MME的构建遵循严谨的三阶段流程：首先基于YouTube平台，依据知识、影视、体育竞赛、艺术表演、生活记录及多语言六大核心领域构建层次化标签体系，涵盖30个细分类别；随后通过人工筛选900段时长从11秒至1小时不等的视频，确保覆盖短、中、长三种时序尺度；最终由专业标注者反复观看视频内容，为每段视频精心设计3道高质量多选题，形成总计2700组问答对，并辅以严格的交叉审核与质量过滤机制，确保问题必须依赖视频内容才能解答。

特点

该数据集在视频评估领域展现出多维度的创新特性：其视频类型覆盖六大视觉领域与30个子类，具备广泛的情境泛化能力；时序维度上囊括从秒级到小时级的全尺度视频，有效检验模型对动态上下文的适应力；数据模态除视频帧外，还整合了字幕与音频等多源信息，全面揭示模型的多模态融合潜力；标注质量方面，所有问答对均经过专家级人工标注与双重审核，并引入证书长度分析指标，量化回答所需的最小视频片段时长，使评估更具科学性与挑战性。

使用方法

使用Video-MME进行评估时，研究者可采用标准化的多模态输入框架。评估通常以“完整视频帧序列+可选字幕/音频+问题提示”为基本范式，模型需基于视觉内容与辅助模态信息进行综合推理。对于支持长上下文处理的模型如Gemini 1.5 Pro，可采用全帧采样策略；而对输入帧数受限的模型，则需根据视频长度调整采样频率以平衡信息密度。性能度量采用准确率指标，通过直接比对模型输出与标注答案计算。该基准同时兼容图像与视频模型，可通过扩展图像模型的输入为多帧序列实现跨模态评估，为模型在时序理解、多模态融合及长上下文建模等方面的能力提供系统性诊断。

背景与挑战

背景概述

随着多模态大语言模型（MLLMs）在静态图像理解领域取得显著进展，其在处理时序视觉数据（如视频）方面的潜力仍亟待深入探索。为填补这一空白，由来自中国科学技术大学、厦门大学、香港大学等机构的学者组成的团队于2024年5月发布了Video-MME，这是首个专为视频分析任务设计的全谱系、多模态评估基准。该数据集旨在全面评估MLLMs在复杂动态场景下的感知与认知能力，其核心研究问题聚焦于如何系统性地衡量模型在多样化视频内容、长时序跨度及多模态信息融合方面的综合性能。Video-MME的建立标志着视频理解评估从单一、片段化向系统化、精细化的重要转变，为后续模型研发提供了关键的诊断工具与方向指引。

当前挑战

Video-MME所针对的视频理解领域，其核心挑战在于模型需同时处理高维视觉信息、复杂时序动态以及跨模态（如字幕、音频）的语义对齐。具体而言，挑战体现在：1）领域问题层面，模型需克服长视频带来的上下文建模困难、稀疏采样导致的信息丢失，以及跨模态信息（如视觉事件与语音描述）的精准关联与推理；2）数据集构建层面，挑战在于如何系统性地收集涵盖6大视觉领域、30个子类且时长跨度从11秒至1小时的多样化视频，并确保其标注质量。这要求标注者反复观看视频内容以生成高质量的问答对，并通过严格的人工审核与基于先进模型（如Gemini 1.5 Pro）的过滤机制，确保问题必须依赖视频内容才能解答，从而避免标注偏差并提升评估的严谨性与挑战性。

常用场景

经典使用场景

在视频理解与多模态大语言模型评估领域，Video-MME数据集作为首个全谱系、多模态的视频分析基准，其经典使用场景在于系统性地评测模型对时序视觉数据的综合理解能力。该数据集通过涵盖知识、影视、体育竞赛、艺术表演、生活记录及多语言六大视觉领域，并囊括从11秒至1小时不等的视频时长，为模型在开放域场景下的泛化性能与长时上下文建模能力提供了严谨的测试平台。研究者可借助其2700道高质量人工标注的多选题，精准评估模型在感知、推理与信息归纳等多层次任务上的表现，尤其擅长揭示模型在处理长视频序列与融合字幕、音频等多模态信息时的瓶颈。

解决学术问题

Video-MME的构建有效应对了多模态大语言模型在视频理解评估中存在的若干关键学术问题。传统视频基准往往局限于单一领域、较短时长或单一模态，难以全面反映模型在真实动态场景中的能力。该数据集通过引入跨领域、多时长、多模态的评估体系，首次系统性地揭示了模型在长时上下文建模、时序推理以及跨模态信息融合方面的不足。实验表明，随着视频时长增加，所有模型的性能均呈现显著下降，凸显了现有架构在处理长序列数据时的固有局限。同时，字幕与音频信息的引入显著提升了模型理解效果，尤其对长视频与多语言任务帮助明显，这为未来模型设计指明了增强多模态协同与长程依赖建模的研究方向。

衍生相关工作

Video-MME的发布催生并衔接了一系列围绕视频大语言模型能力评估与提升的经典研究工作。其构建理念与评估框架为后续基准如TempCompass、MVBench等提供了重要参照，特别是在长视频理解与多模态融合评估方面树立了标杆。基于该数据集揭示的模型短板，学术界涌现出诸多针对性的改进探索，例如采用时序Q-Former架构以自适应提取关键帧，或利用环注意力等机制扩展模型的长上下文处理能力。同时，数据集中对字幕与音频模态价值的验证，直接激励了如TimeChat等模型在时间敏感指令微调数据上的构建，以及VTimeLLM等工作在多模态时序定位任务上的推进，共同推动了视频大语言模型向更精细、更稳健的时序理解方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集