Video-MME-v2

github2026-04-09 更新2026-04-09 收录

下载链接：

https://github.com/MME-Benchmarks/Video-MME-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Video-MME-v2是一个用于全面视频理解的基准数据集，旨在推动下一代视频理解模型的评估。它包含多级评估维度，从信息检索到跨时间推理，并通过严格的标注流程和质量控制确保数据质量。数据集基于3,300多小时的人工标注，旨在解决现有评估范式无法捕捉真实视频理解能力的问题。

Video-MME-v2 is a benchmark dataset for comprehensive video understanding, designed to advance the evaluation of next-generation video understanding models. It encompasses multi-level evaluation dimensions ranging from information retrieval to cross-temporal reasoning, and ensures data quality through rigorous annotation procedures and quality control mechanisms. Built upon over 3,300 hours of manual annotations, this dataset is intended to address the limitation that existing evaluation paradigms fail to capture the genuine video understanding capabilities of models.

创建时间：

2026-04-03

原始信息汇总

Video-MME-v2 数据集概述

数据集基本信息

数据集名称：Video-MME-v2
发布年份：2026年
数据集地址：https://huggingface.co/datasets/MME-Benchmarks/Video-MME-v2
相关论文地址：https://arxiv.org/abs/2604.05015
项目主页地址：https://video-mme-v2.netlify.app/
排行榜地址：https://video-mme-v2.netlify.app/#leaderboard

数据集简介

Video-MME-v2 是一个为驱动下一代视频理解模型而设计的渐进式、鲁棒的基准测试。它旨在解决现有基准测试分数饱和，但排行榜性能与实际用户体验之间仍存在明显差距的问题。该数据集基于超过 3,300 人工小时 的标注工作构建。

核心创新点

渐进式多级评估维度：将视频理解系统性地分解为三个渐进层级：
- 层级 1（多点信息聚合）：检索、提取和整合分散在视频中的多模态线索（帧、音频、字幕）。
- 层级 2（时序理解）：关注动态演化和因果关系，要求模型准确捕捉状态变化、动作序列和事件逻辑。
- 层级 3（时序复杂推理）：要求结合多模态时序信息与外部先验知识（世界知识、社会常识）来执行复杂推理任务。
分组非线性评估机制：将问题组织成以“能力一致性”和“推理连贯性”为目标的小组。每组包含 4 个相互关联的问题，采用非线性评分方案，分数不仅取决于单个准确性，还取决于整体一致性和推理循环的完整性。
严格的数据标注与质量控制：建立了全面的数据标注流程，涉及 60 多位专家的 3,300 人工小时。

数据集内容与结构

许可证：仅用于学术研究。禁止任何形式的商业使用。未经事先批准，不得分发、发布、复制、传播或修改 Video-MME-v2 的全部或部分内容。
数据规模：
- 800 个视频（存储在 40 个 zip 存档中）。
- 800 个字级字幕文件（JSONL 格式，带时间戳）。
- 一个 test.parquet 文件，包含 3,200 个人工标注的问答对（每个视频 4 个问题，按组组织）。
字幕格式：每个字幕文件 (<video_id>.jsonl) 包含带时间戳的字级条目。 json {"text": "Hello", "start_time": 0.5, "end_time": 0.8}

评估流程与配置

评估工具支持：已在 VLMEvalKit 中内置支持，并正在集成到 LMMs-Eval。
提示词格式：提供两种主要提示词格式，一种用于标准评估，另一种用于思维/推理设置。

可用数据集配置：

配置	帧数	字幕	推理
`Video-MME-v2_64frame`	64	✗	✗
`Video-MME-v2_1fps`	1 fps	✗	✗
`Video-MME-v2_64frame_subs`	64	拼接	✗
`Video-MME-v2_1fps_subs`	1 fps	拼接	✗
`Video-MME-v2_64frame_subs_interleave`	64	交错	✗
`Video-MME-v2_1fps_subs_interleave`	1 fps	交错	✗
`Video-MME-v2_64frame_reasoning`	64	✗	✓
`Video-MME-v2_64frame_reasoning_subs`	64	拼接	✓
`Video-MME-v2_64frame_reasoning_subs_interleave`	64	交错	✓

独立评估脚本：提供独立的推理与评估脚本 (evaluation/test_video_mme_v2.py)，可使用 HuggingFace Transformers 进行端到端运行，无需外部评估工具包。
评分机制：使用分组非线性评分机制。问题被组织成 4 个一组，每组根据以下之一进行评分：
- 相关性（能力一致性）：基于组内正确答案数量的指数分数映射。
- 逻辑性（推理连贯性）：基于链式的分数，奖励连续的正确答案，尊重组内的依赖结构。
排行榜提交：若要将模型添加到排行榜，请将模型响应发送至 bradyfu24@gmail.com。

实验与分析要点

非线性评分的优势：与平均准确率相比，非线性评分能更好地反映模型在回答相关问题时的一致性，从而揭示模型的鲁棒性。
思维模式的影响：
- 文本模态有助于解锁推理能力。
- 当前的思维模式在某些情况下仍可能导致性能下降，表明视频 MLLMs 的思维机制仍有很大改进空间。
能力雷达图分析：
- 音频带来显著增益。
- 在长时序推理方面存在优势。
- 各维度仍有明显的改进空间。

引用

如果本工作对您的研究有帮助，请考虑引用相关论文。

搜集汇总

数据集介绍

构建方式

在视频理解模型能力快速演进、现有评测基准趋于饱和的背景下，Video-MME-v2旨在构建一个能够更真实反映模型实际理解能力的下一代评测基准。其构建过程体现了严谨的系统性设计，首先从第一性原理出发，将视频理解能力系统性地解构为三个递进层级：从第一层级的多点信息检索与聚合，到第二层级的时序动态理解，再到第三层级的跨时序复杂推理。数据集的核心构建工作投入了超过3300个人工小时，由60余位专家参与，确保了高质量的数据标注。具体而言，数据采集了800个视频及其对应的词级时间戳字幕文件，并围绕每个视频精心设计了4个相互关联的问题，最终形成了3200个人工标注的问答对，所有问题被组织成旨在评估“能力一致性”和“推理连贯性”的题组。

使用方法

该数据集的使用可通过集成化的评测工具链或独立的脚本方便地进行。主流方式是借助VLMEvalKit评测工具包，该工具包已内置对Video-MME-v2的支持，能够自动从Hugging Face下载数据集、提取视频帧、构建符合格式的提示词，并计算分组非线性分数。用户通过简单的命令行指令即可指定模型、帧采样策略（如64帧均匀采样或1fps）、是否加入字幕以及字幕的整合模式（拼接或交错），并可选择是否启用推理提示。对于希望进行更定制化评估的研究者，项目也提供了基于Transformers的独立端到端评测脚本。该脚本集成了帧提取与缓存、字幕加载、提示构建、模型推理、答案提取和分组评分全部流程，支持断点续跑，并允许用户灵活调整模型精度、注意力实现等超参数。评测完成后，结果会输出各层级分数及细粒度能力评分，为模型能力诊断提供详尽依据。

背景与挑战

背景概述

随着多模态大语言模型在视频理解领域的飞速发展，现有评测基准的性能逐渐饱和，模型在榜单上的表现与真实用户体验之间仍存在显著差距，这揭示了当前评估范式难以准确衡量模型的深层视频理解能力。为应对这一挑战，研究团队于2026年4月发布了Video-MME-v2数据集，该数据集基于其前身Video-MME构建，后者已成为评估Gemini、GPT等前沿模型视频理解能力的标准基准。Video-MME-v2由MME-Benchmarks团队主导开发，其核心研究问题在于设计一个渐进且鲁棒的评估系统，以系统性地解构视频理解任务，推动下一代视频理解模型的高质量技术迭代。该数据集通过引入三级渐进评估维度和分组非线性评分机制，旨在更精准地评估模型从信息检索到跨时间推理的复杂认知能力，对推动视频理解评估范式的演进具有重要影响力。

当前挑战

Video-MME-v2致力于解决视频理解评估领域的关键挑战，即如何超越表面性能指标，准确衡量模型在复杂、动态视频内容中的深层理解与推理能力。具体而言，该数据集面临的挑战包括：在领域问题层面，需应对模型在长时序信息整合、动态事件因果推理以及跨模态语义对齐等方面的能力评估难题，这些任务要求模型不仅识别静态内容，还需理解时间演变与逻辑关联。在构建过程中，挑战同样显著，包括如何设计涵盖多级认知复杂度的标注体系，确保超过3300人时标注的数据质量与一致性，以及建立能够反映模型推理连贯性与能力一致性的非线性评分机制，这些都对数据集的科学性与实用性提出了极高要求。

常用场景

经典使用场景

在视频理解模型评估领域，Video-MME-v2数据集作为新一代基准测试工具，其经典使用场景聚焦于对前沿多模态大语言模型进行系统性能力测评。该数据集通过精心设计的800个视频样本及其对应的3200个标注问题，构建了从信息检索到跨时序推理的三级渐进式评估维度。研究者通常利用该数据集在标准化评估框架下，如VLMEvalKit或独立脚本，对模型在视觉、音频、字幕等多模态信息整合能力进行量化分析，从而揭示模型在真实视频理解任务中的性能边界与内在缺陷。

解决学术问题

Video-MME-v2数据集旨在解决当前视频理解评估中存在的关键学术问题，即传统基准测试分数饱和与真实用户体验之间的显著鸿沟。该数据集通过引入分组非线性评分机制，将问题组织为针对能力一致性与推理连贯性的群组，有效捕捉模型在相关性问题上的稳定表现，而非孤立答案的偶然正确。这一设计突破了线性平均准确率的局限，使得评估能够更精确地反映模型对视频动态演化、因果逻辑及跨模态时序推理的深层理解能力，为模型鲁棒性与泛化性能的衡量提供了科学依据。

实际应用

在实际应用层面，Video-MME-v2数据集为视频内容分析、智能监控、交互式教育及自动化视频摘要等场景提供了可靠的模型评估基础。例如，在智能监控系统中，模型需准确理解视频中的人物行为序列与事件因果关系；在教育视频分析中，则要求模型整合视觉演示与语音解说以解答复杂概念问题。该数据集通过涵盖多样化真实世界视频内容与多层级认知任务，能够有效检验模型在这些实际场景中的适用性，推动视频理解技术向更高实用性与可靠性演进。

数据集最近研究