VCBench

github2026-05-01 更新2026-05-08 收录

下载链接：

https://github.com/buaa-colalab/VCBench

下载链接

链接失效反馈

官方服务：

资源简介：

VCBench是一个流式计数基准数据集，用于诊断视频语言模型中的时空状态维护。它包含406个视频、1,000个问题、4,576个查询点和10,071个标注的事件/状态变化时刻。数据集支持三种互补的评估指标：GPA（高斯精度准确率）、MoC（单调一致性）和UDA（更新方向准确率）。

VCBench is a streaming counting benchmark dataset dedicated to diagnosing spatio-temporal state maintenance in video-language models. It comprises 406 videos, 1,000 questions, 4,576 query points, and 10,071 annotated event/state change timestamps. The dataset supports three complementary evaluation metrics: GPA (Gaussian Precision Accuracy), MoC (Monotonic Consistency), and UDA (Update Direction Accuracy).

创建时间：

2026-04-30

原始信息汇总

VCBench 数据集详情

数据集简介

VCBench 是一个面向长视频中时空状态维持能力的流式计数基准（Streaming Counting Benchmark），将计数作为最小探针，用于诊断视频-语言模型在长视频中的时空状态维持能力。

核心特点

流式评估协议

在视频播放过程中的多个时间点对模型进行查询
衡量模型预测随时间的演变方式，而非仅检查单一最终答案

细粒度分类体系

将计数任务分解为 8 个子类别，覆盖两大维度：

维度	子类别
物体计数（Object Counting）	当前状态快照、状态增量、身份跟踪、窗口增益
事件计数（Event Counting）	原子动作、状态转换、情节片段、周期性动作

大规模标注

406 个视频
1,000 个问题
4,576 个查询点
10,071 个标注的事件/状态变化时刻

三项互补指标

指标	全称	说明
GPA	Gaussian Precision Accuracy	高斯精度准确率（越高越好）
MoC	Monotonicity Consistency	单调性一致性（越高越好）
UDA	Update Direction Accuracy	更新方向准确率（越高越好）

数据集结构

视频数据组织

下载后的视频应按照以下目录结构存放：

data/videos/ RoomTour3D/ -FZTi5EfPSQ.mp4 scannetpp/ 09c1414f1b.mp4 ...

数据来源

RoomTour3D 数据集
ScanNet++ 数据集

下载与使用

数据下载

通过 Hugging Face 下载基准视频： bash huggingface-cli download buaaplay/VCBench --repo-type dataset --local-dir data/videos

安装依赖

bash pip install -r requirements.txt

评估流程

运行模型推理：执行 eval/demo_gemini.py
转换为统一格式：执行 eval/unify_results.py
计算指标：执行 eval/compute_metrics.py

论文与引用

论文地址：arXiv 2603.12703
数据集地址：Hugging Face - buaaplay/VCBench

引用格式： bibtex @misc{liu2026vcbench, title={VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos}, author={Pengyiang Liu and Zhongyue Shi and Hongye Hao and Qi Fu and Xueting Bi and Siwei Zhang and Xiaoyang Hu and Zitian Wang and Linjiang Huang and Si Liu}, year={2026}, eprint={2603.12703}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.12703}, }

许可协议

项目代码：Apache License 2.0
数据集（data/ 目录）：CC BY 4.0

搜集汇总

数据集介绍

构建方式

VCBench是一个面向长视频流式计数任务的基准数据集，旨在诊断视频语言模型在时空状态维持方面的能力。数据集基于406段高质量长视频构建，涵盖RoomTour3D和ScanNet++等真实场景资源。为确保评估的细致全面，研究团队将计数任务拆解为8个子类别，横跨对象计数和事件计数两大维度，包括当前状态快照、状态变化、身份追踪、窗口化增量、原子动作、状态转换、情节片段和周期性动作。注释层面，数据集包含1,000个问题、4,576个查询点以及10,071个标注的事件或状态变化时刻，为细粒度模型评估提供坚实基础。

特点

VCBench的突出特点在于其流式评估协议和三维互补指标。流式协议要求模型在视频播放过程中多个时间点响应用户查询，并通过分析预测结果随时间演化的趋势来评估模型，而非仅依赖最终答案。此外，GPA（高斯精度准确率）衡量预测的精确性，MoC（单调一致性）检验计数随时间的合理变化方向，UDA（更新方向准确率）则评估模型对状态更新的正确程度。这三个指标从精确度、一致性和动态敏感性出发，全方位刻画模型在时空状态维持上的表现能力。

使用方法

VCBench的使用流程简洁明了。用户需首先从Hugging Face下载视频数据，并确保文件按指定目录结构存放。随后可借助提供的评估脚本一键运行Gemini模型进行快速演示，或手动分步操作：先通过Gemini等模型推理生成原始输出，然后使用统一格式转换脚本标准化结果，最后调用指标计算代码获得GPA、MoC和UDA三个维度的评分。整个流程支持自定义视频目录和限制视频数量，便于用户在本地环境下逐步验证模型性能。

背景与挑战

背景概述

在视频语言模型迅速发展的背景下，如何精准评估模型对长视频中时空状态的维持能力成为一项亟待解决的难题。2026年，由北京航空航天大学彭杨、刘志远等研究人员提出的VCBench基准数据集，以流式计数为核心任务，通过细粒度的时空状态探查，系统性地测量模型在视频播放过程中对物体与事件演变的感知与记忆。该数据集包含406段视频、1000道问题及超过4576个查询点，覆盖物体计数与事件计数两大轴线的八种子类别，为视频理解领域提供了从静态快照到动态周期动作的全方位评估框架。VCBench的发布不仅填补了现有基准在时序一致性评估上的空白，更推动了视频语言模型从单一答案校验向流式演化诊断的范式转变，在学术界引起广泛关注。

当前挑战

VCBench所面对的领域挑战集中于视频语言模型在长时推理中难以维持对空间-时间状态的连续追踪，传统评估仅考察最终答案，忽略了模型中间预测的演化轨迹。构建过程中，研究人员需应对视频内容多样性不足导致的泛化瓶颈，为此整合了RoomTour3D与ScanNet++等高质量视频源，并精心设计了涵盖瞬时状态、状态变化、身份追踪、窗口增益等八类细粒度计数子任务的标注体系。手动标注10071个事件/状态变化时刻的工作量巨大，且需保证跨时间片段的一致性与准确性。此外，开发GPA、MoC、UDA三项互补指标以分别量化预测精度、单调性与方向一致性，亦对检测算法的鲁棒性提出了严苛要求，这些共同构成了VCBench构建与评估的核心挑战。

常用场景

经典使用场景

VCBench作为一项面向长视频时空状态维持能力的流式计数基准，核心使用场景在于评估视频-语言模型在动态视觉环境中持续性追踪与更新目标状态的能力。研究者利用其多时间点查询协议，在视频播放过程中同步监测模型对目标数量或事件频次的预测演化轨迹，而非仅验证单帧或最终结果。这一范式特别适用于需要连续感知与记忆更新的任务，例如对视频中人群流动、物体转移或重复动作的实时计数，从而深入剖析模型在长程时空推理中的内在局限。

解决学术问题

该数据集精准定位了当前视频理解研究中一个被忽视的关键问题——模型能否在长视频中维持准确的时空状态表征。传统的视频问答基准多聚焦于静态场景或短时序推理，缺乏对连续状态更新与记忆一致性的系统性诊断。VCBench通过构建包含当前快照、状态增量、身份追踪、窗口增益、原子动作、状态转换、事件片段及周期动作在内的八类细粒度计数子任务，揭示了模型在时序单调性、更新方向一致性及预测精度等方面的系统性缺陷，为长视频理解领域提供了亟需的评估维度与诊断工具。

衍生相关工作

VCBench的提出已催生了一系列相关研究工作。其流式评估协议启发了后续研究者在视频问答中引入时间一致性约束，并推动了连续状态追踪模块的设计。基于该基准，有学者开发了针对长视频建模的循环记忆增强网络，专门优化模型在多时间点预测间的单调性与稳定性。此外，VCBench的细粒度分类体系也被借鉴至事件检测与动作分割领域，衍生出面向时空状态变化的诊断型基准。这些工作共同推动了视频语言模型从静态理解向动态推理的范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集