VideoCount

github2025-06-19 更新2025-06-20 收录

下载链接：

https://github.com/niki-amini-naieni/CountVid

下载链接

链接失效反馈

官方服务：

资源简介：

VideoCount数据集用于视频中的开放世界对象计数。

The VideoCount dataset is designed for open-world object counting in videos.

创建时间：

2025-06-18

原始信息汇总

CountVid: Open-World Object Counting in Videos 数据集概述

数据集基本信息

作者: Niki Amini-Naieni & Andrew Zisserman
论文: Open-World Object Counting in Videos
代码库: CountVid GitHub
实现框架: PyTorch

数据集组成

主要数据集

FSCD-147
- 下载链接: FSCD-147
- 配置文件:
  - config/datasets_fscd147_val.json
  - config/datasets_fscd147_test.json
VideoCount
- 下载链接: VideoCount
- 包含子数据集:
  - Crystals
  - MOT20-Count
  - Penguins
  - TAO-Count

补充数据

TAO验证集视频: 2-TAO_VAL.zip
MOT20训练视频: MOT20.zip

数据集结构

VideoCount目录结构

标注信息

全局计数文件: [benchmark_name]-count-gt.json
帧级计数文件: [benchmark_name]-frame-level-counts-gt.json

特殊说明

Science-Count (Penguins)
- 使用文本提示"penguin"检测所有海鸟(企鹅和鸬鹚)
Science-Count (Crystals)
- 高密度帧的帧级计数可能存在5%误差

预训练模型

CountGD-Box模型: countgd_box.pth
SAM 2.1权重: sam2.1_hiera_large.pt

引用

bibtex @article{AminiNaieni25, title={Open-World Object Counting in Videos}, author={Amini-Naieni, N. and Zisserman, A.}, journal={arXiv preprint arXiv:2506.15368}, year={2025} }

@InProceedings{AminiNaieni24, title = {CountGD: Multi-Modal Open-World Counting}, author = {Amini-Naieni, N. and Han, T. and Zisserman, A.}, booktitle = {Advances in Neural Information Processing Systems (NeurIPS)}, year = {2024}, }

致谢

使用了以下代码库:
- CountGD
- SAM 2
- GeCo
数据来源:
- TAO: arXiv:2005.10356
- MOT20: arXiv:2003.09003
资金支持: UKRI Grant VisualAI

搜集汇总

数据集介绍

构建方式

VideoCount数据集通过整合多个公开视频数据集构建而成，涵盖TAO、MOT20以及科学计数场景（企鹅与晶体）等多样化视频内容。数据采集过程中，采用帧级标注策略，每个视频片段均包含全局计数和逐帧累积计数的精确标注。针对科学计数场景的特殊性，如企鹅视频中难以区分的海鸟类别，采用统一文本提示进行标注；对于高密度晶体场景，则允许5%的标注误差容忍度以应对高度重叠目标。数据集构建时严格遵循原始数据集的许可协议，并通过JSON文件结构化存储标注信息，确保数据可追溯性与格式统一性。

使用方法

使用VideoCount需先下载并解压数据集至指定目录，通过修改配置文件路径建立数据关联。评估流程提供模块化设计：对于TAO和MOT20场景，运行专用测试脚本生成预测文件后，调用统一评估器计算计数准确率；科学计数场景则支持文本提示、示例图像及多模态三种输入模式的独立测试。典型使用流程包括：配置预训练模型路径、指定输入数据目录、选择评估模式（如纯文本模式需设置num_exemplars=0），最后执行评估脚本输出MAE等指标。数据集兼容PyTorch框架，需预先安装SAM2和Detectron2等依赖库以实现完整功能。

背景与挑战

背景概述

VideoCount数据集由Niki Amini-Naieni和Andrew Zisserman团队于2025年提出，旨在解决视频中开放世界物体计数这一前沿问题。该数据集构建于计算机视觉与深度学习技术蓬勃发展的背景下，特别关注多目标跟踪与物体计数在复杂场景中的应用。作为CountVid项目的核心组成部分，VideoCount整合了来自TAO、MOT20等权威基准的数据，并创新性地引入了科学计数场景（如企鹅群落和晶体生长监测），为视频物体计数领域提供了首个综合性评估平台。其多模态设计融合了文本描述和示例图像，显著提升了模型在开放环境下的适应能力，对智能监控、生态学研究等领域具有重要价值。

当前挑战

VideoCount数据集面临的挑战主要体现在两个方面：领域问题层面，开放世界视频物体计数需解决目标外观剧烈变化、严重遮挡以及跨帧身份保持等难题，尤其在晶体生长等密集场景中，传统方法难以处理高达5%的标注误差；构建过程层面，数据集整合了多个异构视频源，需统一不同基准的标注标准，科学计数场景中相似物种（如企鹅与鸬鹚）的区分对人工标注提出极高要求，而晶体视频后期帧的极端密集分布导致标注一致性难以保证。此外，多模态数据（文本与示例图像）的协同标注与验证也大幅增加了数据集构建的复杂度。

常用场景

经典使用场景

VideoCount数据集在视频对象计数领域具有广泛的应用价值，尤其在开放世界场景下的多目标追踪与计数任务中表现卓越。该数据集通过整合来自不同领域的视频数据，如科学实验中的晶体生长监测、野生动物保护中的企鹅种群统计，以及城市交通中的车辆流量分析，为研究者提供了一个全面且多样化的测试平台。其多模态设计支持基于文本描述和示例图像的混合查询方式，极大提升了复杂场景下的计数精度。

解决学术问题

该数据集有效解决了开放世界视频对象计数中的三大核心难题：跨场景泛化能力不足、动态目标重叠遮挡导致的计数偏差，以及少样本条件下的语义理解局限。通过引入帧级累积计数标注和全局唯一对象标识，显著提升了长视频序列中目标身份保持的准确性。在计算机视觉顶级会议NeurIPS 2024的相关研究中，该数据集的基准测试推动了对多模态特征融合机制的深入探索，为开放世界理解任务建立了新的评估标准。

实际应用

在实际应用层面，VideoCount已成功部署于南极生态监测系统，通过自动统计企鹅种群数量变化辅助生物多样性研究。在材料科学领域，该数据集支撑的算法能够精确量化晶体生长过程中的晶核数量变化，为实验室自动化观测提供关键技术支持。交通管理部门则利用其多目标追踪能力，实现城市交叉路口车辆流量的实时统计分析，优化信号灯控制策略。这些应用验证了算法在真实场景下的鲁棒性和实用性。

数据集最近研究