Video-MME-v2

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/MME-Benchmarks/Video-MME-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Video-MME-v2是一个用于全面视频理解评估的基准数据集，旨在推动下一代视频理解模型的发展。数据集包含800个1080p MP4格式的视频文件，每个视频配有4个多选题（MCQ）形式的问答对，共计3,200个QA实例。视频主要来源于YouTube，其中80%以上发布于2025年或之后。数据集采用多层次评估体系，包括检索与聚合（Level 1）、时序理解（Level 2）和复杂推理（Level 3）。此外，数据集还包含基于能力的评估组和基于推理一致性的评估组，以全面考察模型的视频理解能力。数据集文件包括视频文件、测试数据（test.parquet）和字幕文件（subtitle.zip），其中字幕文件为每个视频提供了单词级的时间戳信息。

创建时间：

2026-04-06

原始信息汇总

Video-MME-v2 数据集概述

数据集基本信息

数据集名称：Video-MME-v2
许可证：MIT
任务类别：视频-文本到文本
主要语言：英语
标签：基准测试、视频、多模态、多项选择题
数据规模：1K < n < 10K

数据集内容与结构

视频文件：包含800个1080p的MP4文件，按顺序组织在40个ZIP压缩包中。
问答数据：包含3200个问答实例，每个视频对应4个问题。数据存储在test.parquet文件中，每个实例包含问题、选项、答案以及视频ID和任务类型等元数据。
字幕文件：包含800个JSONL文件，每个文件对应一个唯一的视频ID，提供词级条目和时间戳。

基准测试设计

数据集规模：800个视频，3200个基于多项选择题的问答对。
多层次评估体系：
- 第1级：检索与聚合。
- 第2级：第1级 + 时序理解。
- 第3级：第2级 + 复杂推理。
基于组的评估策略：
- 能力一致性组：检验特定基础感知技能的广度。
- 推理连贯性组：评估模型推理能力的深度。
视频来源：所有视频均收集自YouTube，超过80%的视频发布于2025年或之后，近40%发布于2025年10月之后。
视频类别：数据集包含四个顶级领域，进一步细分为31个精细子类别。
评估指标：对所有问题组应用非线性评分机制，对推理连贯性组使用首次错误截断机制。

相关资源

项目页面：https://video-mme-v2-tmp.netlify.app
论文：https://arxiv.org/abs/2604.05015
GitHub仓库：https://github.com/MME-Benchmarks/Video-MME-v2
排行榜：https://video-mme-v2-tmp.netlify.app/#leaderboard

搜集汇总

数据集介绍

构建方式

在视频理解领域，随着前沿模型性能的快速演进，传统评估基准逐渐显现出饱和态势，难以准确衡量模型的实际理解能力。Video-MME-v2基准的构建旨在应对这一挑战，其数据集核心包含800个1080p高清MP4视频文件，均采集自YouTube平台，其中超过80%的视频发布于2025年之后，确保了内容的时效性与新颖性。每个视频均关联四个多项选择题，共计形成3200个问答实例，这些实例被系统性地组织于Parquet格式的标注文件中。此外，数据集还提供了与每个视频对应的详细字幕文件，以JSONL格式存储，内含词级条目及精确的时间戳信息，为多模态分析提供了丰富的结构化基础。

特点

该数据集在设计上体现了层次化与系统性的评估理念。其核心特征在于构建了一个多级评估体系，从基础的检索与聚合能力，到融合时序理解的中级层次，最终延伸至包含复杂推理的高级阶段，形成了逐层递进的能力考察框架。数据集进一步引入了基于分组的评估策略，通过能力一致性组检验模型在特定感知技能上的广度，并借助推理连贯性组深入评估模型逻辑推理的深度与鲁棒性。在度量机制上，采用了非线性评分方法，并对推理连贯性组实施了首次错误截断机制，旨在精准识别并惩罚推理链条中的缺陷，从而更真实地反映模型的综合视频理解水平。

使用方法

研究人员可利用该数据集对视频理解模型进行系统化评估与基准测试。具体而言，通过加载`test.parquet`文件可获取全部问答实例及其元数据，包括问题、选项、正确答案、视频标识符与任务类型。评估时，模型需处理对应的视频文件（存储于`videos/`目录的压缩包中）及其辅助字幕数据（来自`subtitle.zip`），以生成对多项选择题的预测答案。评估过程应遵循数据集定义的多级层次与分组策略，并应用其特有的非线性评分与首次错误截断机制进行计算。最终结果可提交至官方排行榜，以在统一标准下衡量模型性能，推动下一代视频理解技术的发展。

背景与挑战

背景概述

视频理解作为多模态人工智能的核心领域，长期以来面临着模型评估与真实能力脱节的困境。2024年，由MME-Benchmarks团队推出的Video-MME基准测试，虽已成为评估Gemini、GPT等前沿模型的标准化工具，但其评分饱和现象揭示了现有评估范式在捕捉深度视频理解能力上的局限。为此，研究团队于2025年基于第一性原理重构评估体系，正式发布Video-MME-v2数据集。该数据集包含800个高清视频及3200个多项选择题对，旨在通过多层次评估层次与分组策略，系统性地衡量模型在检索聚合、时序理解与复杂推理等方面的综合性能，推动视频理解研究迈向新阶段。

当前挑战

Video-MME-v2致力于解决视频问答领域中模型表现与用户体验存在显著差距的核心挑战。具体而言，该数据集通过构建涵盖31个细分类别的多样化视频内容，并设计‘能力一致性组’与‘推理连贯性组’，以检验模型基础感知技能的广度与深度推理能力的鲁棒性。在构建过程中，研究团队需克服高质量视频采集与标注的复杂性，确保超过80%的视频为2025年后的新内容，同时建立非线性评分机制与首次错误截断机制，以精准量化模型在时序追踪与多步推理中的错误传播，从而避免评估结果的表面饱和，真实反映模型的进阶理解能力。

常用场景

经典使用场景

在视频理解领域，Video-MME-v2数据集作为一项前沿基准测试工具，其经典使用场景集中于评估多模态大模型在复杂视频问答任务中的综合性能。该数据集通过精心设计的3200个多项选择题对，覆盖了从基础检索到高级推理的多层次能力评估，尤其擅长检验模型在时序理解与逻辑连贯性方面的表现。研究者通常利用这一基准来系统衡量模型在真实世界视频内容中的理解深度，推动视频智能分析技术向更精细、更可靠的方向演进。

解决学术问题

该数据集有效应对了当前视频理解研究中的核心挑战，即如何超越表面性能指标，真实反映模型的实际认知能力。它通过引入多级评估层次与分组策略，解决了传统基准测试中常见的分数饱和与用户体验脱节问题。其设计强调了时序推理与连贯性验证，为学术界提供了衡量模型是否具备真正视频理解能力的新范式，从而促进了评估方法学从粗放向精准的转变。

衍生相关工作

围绕Video-MME-v2数据集，已衍生出一系列聚焦于提升视频理解模型鲁棒性与推理深度的研究工作。这些工作不仅包括基于其评估框架的新型模型架构探索，也催生了针对时序推理、多跳问答等特定能力的专项优化算法。该基准的发布进一步激发了学术界对视频理解评估范式的重新思考，推动了相关评测标准与模型能力的协同进化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集