VIDEOCOUNT

Name: VIDEOCOUNT
Creator: 牛津大学视觉几何组
Published: 2025-06-18 19:35:30
License: 暂无描述

arXiv2025-06-18 更新2025-06-22 收录

下载链接：

https://github.com/niki-amini-naieni/CountVid/

下载链接

链接失效反馈

官方服务：

资源简介：

VIDEOCOUNT是一个视频计数数据集，旨在评估开放世界视频对象计数任务的算法性能。该数据集由三个基准测试组成，涵盖了141个对象类别和每个视频1到1203个对象的不同对象计数。数据集的构建使用了TAO和MOT20跟踪数据集，以及从自然栖息地监测企鹅和金属合金结晶过程的X射线视频中捕获的视频。VIDEOCOUNT数据集可用于评估COUNTVID等模型在开放世界视频对象计数任务中的性能，旨在解决视频中的对象计数问题，尤其是在拥挤场景中避免重复计数和识别重新出现的对象。

VIDEOCOUNT is a video counting dataset developed to evaluate the performance of algorithms for open-world video object counting tasks. This dataset consists of three benchmark tests, covering 141 object categories and varying object counts ranging from 1 to 1203 objects per video. The dataset is constructed using the TAO and MOT20 tracking datasets, alongside videos extracted from X-ray footage used for monitoring penguins in natural habitats and capturing the crystallization process of metal alloys. The VIDEOCOUNT dataset can be utilized to assess the performance of models such as COUNTVID in open-world video object counting tasks, with the objective of addressing video object counting challenges, especially avoiding duplicate counts and recognizing re-occurring objects in crowded scenarios.

提供机构：

牛津大学视觉几何组

创建时间：

2025-06-18

搜集汇总

数据集介绍

构建方式

VIDEOCOUNT数据集的构建融合了多源数据与科学应用场景的深度结合。研究团队通过重新标注TAO和MOT20跟踪数据集中的目标对象计数信息，构建了TAO-Count和MOT20-Count基准；同时创新性地引入了企鹅种群监测和金属合金结晶过程的X射线视频，形成Science-Count基准。该数据集采用三阶段标注流程：首先基于原始跟踪数据标注目标对象边界框，随后通过人工复核确保跨帧实例的唯一性，最终对科学实验视频进行专业级对象标识。这种构建方式既继承了现有数据集的多样性，又通过专业领域数据拓展了开放世界计数的挑战维度。

使用方法

使用VIDEOCOUNT进行算法评估时，需遵循其多模态提示规范。研究者可通过文本描述（如‘fish’）、视觉示例（边界框标注）或二者组合指定计数目标。评估指标采用视频级MAE和RMSE，强调对唯一实例的准确枚举而非简单检测计数。基准测试包含三种模式：纯文本提示评估零样本能力，视觉示例测试少样本适应性，组合提示验证多模态融合性能。对于科学应用子集，建议额外分析算法在跨域数据和时间维度上的表现稳定性，以全面衡量开放世界计数模型的实用价值。

背景与挑战

背景概述

VIDEOCOUNT数据集由牛津大学视觉几何组（VGG）的Niki Amini-Naieni和Andrew Zisserman于2025年提出，旨在解决视频中开放词汇对象计数这一新颖任务。该任务要求根据文本描述或图像示例，枚举视频中目标对象的所有独特实例。数据集整合了TAO、MOT20跟踪数据集以及企鹅监测和金属合金结晶X射线视频，覆盖141个对象类别，单视频对象数量从1至1203不等。VIDEOCOUNT的建立填补了视频计数领域缺乏开放词汇方法的空白，为生态保护、材料科学等跨学科研究提供了关键工具。

当前挑战

VIDEOCOUNT面临的核心挑战体现在两个维度：任务层面，需解决密集场景下的遮挡处理、相似对象区分及跨帧重复计数问题，例如X射线视频中快速变形的晶体计数；构建层面，需克服标注成本高（如FSC-147数据集中数千个边界框标注的繁琐性）、跨数据集标注标准统一（整合TAO/MOT20时需补充静态对象标注）以及科学视频域外泛化（如企鹅监测视频与预训练模型域差异）等难题。这些挑战推动了COUNTVID模型中时序过滤器和多模态提示机制的创新设计。

常用场景

经典使用场景

VIDEOCOUNT数据集在计算机视觉领域中被广泛应用于开放世界视频对象计数任务。该数据集通过结合文本描述或图像示例，能够精确枚举视频中目标对象的唯一实例。在拥挤场景中，对象遮挡和相似性使得避免重复计数和识别重现对象成为关键挑战。VIDEOCOUNT通过提供多样化的视频样本，包括TAO和MOT20跟踪数据集中的内容，以及企鹅和金属合金结晶的X射线视频，为这一任务提供了丰富的实验材料。

解决学术问题

VIDEOCOUNT数据集解决了开放世界视频对象计数中的多个学术问题。首先，它填补了视频计数领域的研究空白，尤其是在开放词汇设置下。其次，数据集通过引入COUNTVID模型，结合了开放词汇图像计数和类不可知分割与跟踪模型的优势，显著提升了计数准确性。此外，数据集还通过扩展CountGD模型，使其能够输出边界框，进一步优化了对象识别的精确度。这些贡献为视频计数任务提供了新的研究方向和基准。

实际应用

VIDEOCOUNT数据集在实际应用中具有广泛的价值。例如，在生态保护领域，无人机拍摄的视频序列可以通过该数据集自动计数动物种群，显著减少人工标注时间。材料科学家利用该数据集分析液态金属合金结晶过程中的晶体数量，以研究冷却速度对形成过程的影响。此外，流行病学家通过城市街道视频中的人和车辆计数，研究行人暴露于空气污染的原因并制定缓解措施。这些应用展示了数据集在科学研究和实际工程中的重要作用。

数据集最近研究