VideoZeroBench

github2026-04-05 更新2026-04-04 收录

下载链接：

https://github.com/marinero4972/VideoZeroBench

下载链接

链接失效反馈

官方服务：

资源简介：

VideoZeroBench是一个具有挑战性的长视频理解基准，包含层次化的时空证据验证。前沿模型在标准视频问答中仅达到17%的准确率，而在需要正确的时空定位时准确率不超过1%。大多数开源视频MLLMs在Level-5上获得零准确率。

VideoZeroBench is a challenging long video understanding benchmark with hierarchical spatio-temporal evidence verification. State-of-the-art models only achieve an accuracy of 17% in standard video question answering, and their accuracy does not exceed 1% when correct spatio-temporal localization is required. Most open-source video MLLMs attain zero accuracy on Level-5.

创建时间：

2026-04-02

原始信息汇总

VideoZeroBench 数据集概述

数据集简介

VideoZeroBench 是一个极具挑战性的长视频理解基准，其核心特点是包含分层次的时空证据验证。该基准旨在探究视频多模态大语言模型在需要精确时空定位理解任务上的极限。

核心特点

极具挑战性的长视频问答：数据集专注于长视频内容的理解。
分层次的时空证据验证：问题设计包含时间和空间两个维度的证据验证层级。

数据集构成与统计

数据来源：所有问题和证据均经过人工标注和验证。
覆盖领域：涵盖13个视频领域，包括教学、游戏、体育、影视、音乐、日常vlog、驾驶、新闻娱乐、旅行、动物、幽默、时尚美妆、动画。
能力维度：覆盖11项原子能力，分为详细感知、时空推理、语义与跨模态推理三大类。
数据分布：包含视频长度和最小证据跨度的类别分布统计。

评估与性能

评估层级：
- Level-3：报告标准问答准确率。
- Level-5：报告同时要求正确答案和正确时空定位的准确率（需满足时间交并比和视觉交并比）。
模型表现：前沿模型在标准视频问答中仅达到17%的准确率，在需要正确时空定位时准确率不超过1%。大多数开源视频多模态大语言模型在Level-5评估中准确率为零。

关键发现

答案正确性可能无法可靠地暗示真正的理解。即使在预测正确的情况下，证据定位也经常失败。
主要瓶颈不在于粗粒度的语义识别，而在于细粒度的空间智能和“大海捞针”式的时间搜索能力。
基于视频的智能体思考有所帮助，但仍受限于定位精度。未来的进展需要更强的证据支撑感知和精确的时空推理能力。

获取方式

论文地址：https://arxiv.org/abs/2604.01569
项目主页：https://marinero4972.github.io/projects/VideoZeroBench/
数据集地址：https://huggingface.co/datasets/marinero4972/VideoZeroBench/

引用

如需使用本数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在视频理解领域，构建具有挑战性的基准数据集对于推动多模态大语言模型的发展至关重要。VideoZeroBench的构建过程采用了严格的人工标注与验证机制，涵盖了13个不同的视频领域，包括教学、游戏、体育、影视等多样化场景。该数据集通过分层时空证据验证框架，精心设计了涉及详细感知、时空推理以及语义跨模态推理的11种原子能力问题，确保每个问题均配有精确的时间戳和空间定位证据，从而为模型评估提供了坚实的真实性基础。

使用方法

作为评估视频多模态大语言模型性能的基准，VideoZeroBench的使用旨在系统检验模型在复杂长视频语境下的理解深度。研究者可通过该数据集的标准评估流程，量化模型在分层验证框架下的表现，其中Level-3评估标准答案准确性，而Level-5则进一步要求答案与时空证据的匹配度。分析结果有助于揭示模型在语义识别与证据 grounding 之间的能力差距，为未来研究方向，如提升细粒度空间智能和精确时序推理，提供关键的诊断依据和明确的改进目标。

背景与挑战

背景概述

随着视频多模态大语言模型（Video MLLMs）的快速发展，评估其在长视频理解中的真实认知能力成为关键研究议题。VideoZeroBench由Jiahao Meng、Yue Tan等研究人员于2026年提出，旨在通过层次化的时空证据验证机制，深入探究现有模型在复杂视频场景中的理解极限。该数据集覆盖13个视频领域，包含11种原子能力，核心研究问题聚焦于模型是否能够基于精细的时空证据进行推理，而非仅依赖粗粒度的语义匹配。其构建采用了人工标注与验证，显著提升了评估的严谨性，为视频理解领域设立了新的基准，推动了模型从表面答案生成向深层证据支撑的认知转变。

当前挑战

VideoZeroBench所针对的领域挑战在于解决长视频问答中模型缺乏时空证据验证能力的问题，即模型虽能生成正确答案，却无法提供精确的时空定位支持，反映出当前视频MLLMs在细粒度空间智能与长时序搜索方面的不足。在数据集构建过程中，挑战主要源于人工标注的复杂性，需要确保每个问题对应的证据在时间和空间维度均得到准确标注，同时覆盖多样化的视频领域与能力类型，以构建具有层次化验证结构的评估体系，这要求高度的标注一致性与领域知识整合。

常用场景

经典使用场景

在视频多模态大模型研究领域，VideoZeroBench作为一项极具挑战性的长视频理解基准测试，其经典使用场景聚焦于评估模型在复杂时空证据验证任务中的性能极限。该数据集通过构建层次化的时空证据验证框架，要求模型不仅需回答视频内容相关问题，还需精准定位支持答案的时空证据片段，从而深入检验模型对长视频的细粒度感知与推理能力。

解决学术问题

VideoZeroBench主要解决了视频多模态大模型研究中长期存在的“伪理解”问题，即模型可能给出正确答案却缺乏对支撑证据的精准时空定位能力。该数据集通过引入严格的时空交并比指标，揭示了当前模型在细粒度空间智能与长时序“大海捞针”式检索方面的核心瓶颈，推动了学术界对证据驱动视频理解范式的重视，为提升模型的可解释性与可靠性提供了关键评估工具。

实际应用

在实际应用层面，VideoZeroBench所针对的长视频深度理解能力，对于智能教学系统、自动驾驶场景分析、安防监控事件追溯以及沉浸式媒体内容检索等领域具有重要价值。例如，在教育领域，系统需从冗长的教学视频中精准定位并解释特定操作步骤；在自动驾驶中，则要求从连续行车记录中识别并回溯关键决策时刻的视觉依据，这些都对模型的时空证据验证能力提出了高标准需求。

数据集最近研究