VCBench

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/buaaplay/VCBench

下载链接

链接失效反馈

官方服务：

资源简介：

VCBench 是一个用于评估视频理解模型中时空状态维护能力的视频计数基准数据集。该数据集包含 4,574 个剪辑视频片段，总大小约 80 GB，视频格式为 MP4 (H.264)。数据集分为 8 个子类别，涵盖对象计数和事件计数两大任务。对象计数包括 O1-Snap（当前状态快照）、O1-Delta（当前状态变化）、O2-Unique（全局唯一计数）和 O2-Gain（窗口增益计数）；事件计数包括 E1-Action（瞬时动作）、E1-Transit（状态转换）、E2-Periodic（周期性动作）和 E2-Episode（片段性动作）。视频来源于多个公开数据集，如 YouTube、RoomTour3D、Ego4D、ScanNet 等，并经过严格的质量验证，确保时长精度（±0.1秒）、帧率保持和无损剪辑。数据集适用于视频分类、问答、时空推理等任务，并提供了详细的标注信息（包括问题、查询点和真实答案）。使用 MIT 许可证发布。

创建时间：

2026-03-01

原始信息汇总

VCBench数据集概述

数据集基本信息

数据集名称：VCBench: Clipped Videos Dataset
许可协议：MIT License
任务类别：视频分类、问答
语言：英语
标签：视频理解、时序推理、计数、基准测试
规模类别：1K<n<10K

数据集内容

视频总数：4,574个剪辑片段
总大小：约80 GB
视频格式：MP4 (H.264编码)
类别划分：包含8个子类别，分为对象计数和事件计数两大任务

类别详情

对象计数（共2,297个剪辑）

O1-Snap：当前状态快照（252个剪辑）
O1-Delta：当前状态增量（98个剪辑）
O2-Unique：全局唯一计数（1,869个剪辑）
O2-Gain：窗口增益计数（78个剪辑）

事件计数（共2,277个剪辑）

E1-Action：瞬时动作（1,281个剪辑）
E1-Transit：状态转换（205个剪辑）
E2-Periodic：周期性动作（280个剪辑）
E2-Episode：片段性事件（511个剪辑）

文件命名规范

多查询剪辑：{category}_{question_id}_{query_index}.mp4（例如：e1action_0000_00.mp4）
单查询剪辑：{category}_{question_id}.mp4（例如：o1delta_0007.mp4）

视频属性

编码：H.264（使用-c copy进行无损剪辑）
帧率：保留源视频帧率（3fps、24fps、25fps、30fps、60fps）
时长精度：与标注时间戳误差在±0.1秒内
质量：保持原始质量（无重新编码）

源数据集

视频剪辑自多个源数据集：

YouTube步行游览和体育视频
RoomTour3D（室内导航）
Ego4D（第一人称视角）
ScanNet、ScanNetPP、ARKitScenes（3D室内场景）
TOMATO、CODa、OmniWorld（时序推理）
模拟物理视频

标注信息

完整标注（包括问题、查询点和真实答案）请参考原始VCBench仓库：

对象计数标注：object_count_data/*.json
事件计数标注：event_counting_data/*.json

每个标注文件包含：

id：问题标识符
source_dataset：原始视频来源
video_path：原始视频文件名
question：计数问题
query_time或query_points：查询时间戳
count：真实答案

质量验证

所有视频均经过以下验证：

时长精度（100%在±0.1秒内）
帧率保留（保持原始fps）
无丢帧或速度变化
无损剪辑（无重新编码伪影）

数据集统计

类别	剪辑数量	平均时长	总大小
O1-Snap	252	~2分钟	~4.3 GB
O1-Delta	98	~1分钟	~1.7 GB
O2-Unique	1,869	~3分钟	~32 GB
O2-Gain	78	~1分钟	~1.3 GB
E1-Action	1,281	~4分钟	~28 GB
E1-Transit	205	~2分钟	~3.5 GB
E2-Periodic	280	~3分钟	~8.7 GB
E2-Episode	511	~2分钟	~4.8 GB
总计	4,574	-	~80 GB

引用

使用本数据集时请引用VCBench论文：

@article{vcbench2026, title={VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance}, author={[Authors]}, journal={[Journal/Conference]}, year={2026} }

联系方式

如有问题或疑问，请在数据集仓库中提交issue。

搜集汇总

数据集介绍

构建方式

在视频理解领域，构建高质量的数据集对于评估模型的空间-时间状态维护能力至关重要。VCBench数据集通过从多个异构视频源中精心裁剪视频片段而形成，这些源数据涵盖了YouTube行走游览、体育视频、第一人称视角的Ego4D、室内三维场景的ScanNet以及物理模拟视频等。裁剪过程严格遵循标注时间戳，采用无损剪辑技术保留原始编码格式与帧率，确保了视频片段的时序精度与视觉质量。最终整合的4,574个剪辑片段，依据对象计数与事件计数两大任务被系统划分为八个子类别，为模型评估提供了结构化的基准。

特点

该数据集的核心特征体现在其针对空间-时间状态维护的专门化设计上。它不仅规模可观，包含约80GB的视觉数据，更在内容上实现了对象计数与事件计数的精细平衡，各自涵盖四种独特的子任务场景。视频属性保持了高度一致性，所有片段均采用H.264编码，帧率与原始源完全同步，持续时间误差控制在±0.1秒以内，避免了重编码引入的伪影。这种在多样视频源与严格质量控制之间的平衡，使得VCBench能够有效检验模型在动态、连续视频流中进行精确计数与状态推理的鲁棒性。

使用方法

为便于研究者利用该数据集进行模型评估与开发，VCBench提供了灵活的数据加载方式。用户可通过Hugging Face Hub的Python接口下载单个视频文件，或使用命令行工具批量获取整个数据集。数据集文件遵循清晰的命名规范，区分了多查询与单查询剪辑，便于程序化处理。完整的标注信息，包括问题描述、查询时间点及真实答案，需参考独立的JSON注解文件。这种将视频数据与结构化注解分离的设计，既降低了存储与传输负担，也支持研究者根据具体任务需求灵活组合使用。

背景与挑战

背景概述

视频理解作为计算机视觉领域的重要分支，其核心在于解析动态视觉内容中的时空信息。VCBench数据集于2026年由相关研究团队构建，旨在评估模型在视频流中维持时空状态的能力。该数据集聚焦于物体计数与事件计数两大任务，涵盖了从即时状态快照到周期性动作的八个子类别，共计4,574个剪辑视频片段，总容量约80GB。其视频素材源自YouTube行走导览、体育视频、Ego4D第一人称视角及多个三维室内场景数据集，为时空推理研究提供了丰富的真实与模拟环境样本。VCBench的建立推动了视频计数基准的发展，为模型在复杂动态场景中的状态跟踪与推理能力设定了新的评估标准。

当前挑战

在视频理解领域，精确计数物体与事件要求模型具备强大的时空状态维护能力，以处理遮挡、外观变化及动态背景等复杂因素。VCBench针对这一核心问题，提出了维持长期依赖、区分瞬时与周期性事件以及处理多尺度时间窗口的挑战。数据构建过程中，团队需从异构源数据集中提取高质量剪辑，确保时长精度在±0.1秒内，并保持原始帧率与无损编码，以避免重新压缩引入的伪影。此外，标注工作涉及精确的时间点查询与多答案地面真值生成，要求跨数据集协调一致的时间戳对齐与语义解释，这些技术难点共同构成了数据集构建的核心挑战。

常用场景

经典使用场景

在视频理解领域，VCBench数据集作为评估模型时空状态维护能力的基准工具，广泛应用于对象计数与事件计数的复杂任务中。其经典使用场景聚焦于测试模型在动态视频流中追踪并计数物体或事件的能力，例如在室内导航视频中统计房间内家具的数量变化，或在体育赛事片段中记录运动员的周期性动作频率。通过提供精确的时间戳标注与多样化的视频源，该数据集能够系统性地衡量模型对空间布局与时间演化的联合理解水平，为研究者提供了一个标准化的评估平台。

解决学术问题

VCBench数据集主要解决了视频理解中时空推理的若干核心学术问题，特别是针对模型在连续帧间维持状态一致性的挑战。它通过设计对象计数（如全局唯一计数与窗口增益计数）和事件计数（如瞬时动作与周期性动作）等子任务，量化了模型处理遮挡、视角变换与时间延迟等现实干扰因素的能力。该数据集的意义在于推动了视频分析从静态识别向动态推理的范式转变，其影响体现在为时空状态建模提供了可复现的评估标准，促进了神经网络在长序列依赖与多尺度时序建模方面的理论进展。

衍生相关工作

围绕VCBench数据集，学术界衍生了一系列经典研究工作，主要集中在时空推理模型的架构创新与评估方法拓展上。例如，有研究利用其多查询点设计开发了基于记忆网络的视频状态维护系统，以处理长视频中的计数漂移问题；另一些工作则结合强化学习框架，优化模型在部分观测条件下的计数精度。此外，该数据集还催生了跨模态计数基准的构建，将视觉计数与自然语言问题回答相结合，进一步推动了视频语言理解领域的发展。这些衍生工作共同丰富了时空推理的理论与实践体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集