VCBench
收藏VCBench 数据集详情
数据集简介
VCBench 是一个面向长视频中时空状态维持能力的流式计数基准(Streaming Counting Benchmark),将计数作为最小探针,用于诊断视频-语言模型在长视频中的时空状态维持能力。
核心特点
流式评估协议
- 在视频播放过程中的多个时间点对模型进行查询
- 衡量模型预测随时间的演变方式,而非仅检查单一最终答案
细粒度分类体系
将计数任务分解为 8 个子类别,覆盖两大维度:
| 维度 | 子类别 |
|---|---|
| 物体计数(Object Counting) | 当前状态快照、状态增量、身份跟踪、窗口增益 |
| 事件计数(Event Counting) | 原子动作、状态转换、情节片段、周期性动作 |
大规模标注
- 406 个视频
- 1,000 个问题
- 4,576 个查询点
- 10,071 个标注的事件/状态变化时刻
三项互补指标
| 指标 | 全称 | 说明 |
|---|---|---|
| GPA | Gaussian Precision Accuracy | 高斯精度准确率(越高越好) |
| MoC | Monotonicity Consistency | 单调性一致性(越高越好) |
| UDA | Update Direction Accuracy | 更新方向准确率(越高越好) |
数据集结构
视频数据组织
下载后的视频应按照以下目录结构存放:
data/videos/ RoomTour3D/ -FZTi5EfPSQ.mp4 scannetpp/ 09c1414f1b.mp4 ...
数据来源
- RoomTour3D 数据集
- ScanNet++ 数据集
下载与使用
数据下载
通过 Hugging Face 下载基准视频: bash huggingface-cli download buaaplay/VCBench --repo-type dataset --local-dir data/videos
安装依赖
bash pip install -r requirements.txt
评估流程
- 运行模型推理:执行
eval/demo_gemini.py - 转换为统一格式:执行
eval/unify_results.py - 计算指标:执行
eval/compute_metrics.py
论文与引用
- 论文地址:arXiv 2603.12703
- 数据集地址:Hugging Face - buaaplay/VCBench
引用格式: bibtex @misc{liu2026vcbench, title={VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos}, author={Pengyiang Liu and Zhongyue Shi and Hongye Hao and Qi Fu and Xueting Bi and Siwei Zhang and Xiaoyang Hu and Zitian Wang and Linjiang Huang and Si Liu}, year={2026}, eprint={2603.12703}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.12703}, }
许可协议
- 项目代码:Apache License 2.0
- 数据集(
data/目录):CC BY 4.0




