five

VideoCount

收藏
github2025-06-19 更新2025-06-20 收录
下载链接:
https://github.com/niki-amini-naieni/CountVid
下载链接
链接失效反馈
官方服务:
资源简介:
VideoCount数据集用于视频中的开放世界对象计数。

The VideoCount dataset is designed for open-world object counting in videos.
创建时间:
2025-06-18
原始信息汇总

CountVid: Open-World Object Counting in Videos 数据集概述

数据集基本信息

数据集组成

主要数据集

  1. FSCD-147

    • 下载链接: FSCD-147
    • 配置文件:
      • config/datasets_fscd147_val.json
      • config/datasets_fscd147_test.json
  2. VideoCount

    • 下载链接: VideoCount
    • 包含子数据集:
      • Crystals
      • MOT20-Count
      • Penguins
      • TAO-Count

补充数据

数据集结构

VideoCount目录结构

VideoCount/ |Crystals/ |anno/ |crystals-count-gt.json |crystals-frame-level-counts-gt.json |exemplars/ |frames/ |MOT20-Count/ |anno/ |frames/ |MOT20-01/ |MOT20-02/ |MOT20-05/ |Penguins/ |TAO-Count/ |anno/ |frames/ |val/ |ArgoVerse/ |AVA/ |BDD/ |Charades/ |HACS/ |LaSOT/ |YFCC100M/

标注信息

  • 全局计数文件: [benchmark_name]-count-gt.json
  • 帧级计数文件: [benchmark_name]-frame-level-counts-gt.json

特殊说明

  1. Science-Count (Penguins)

    • 使用文本提示"penguin"检测所有海鸟(企鹅和鸬鹚)
  2. Science-Count (Crystals)

    • 高密度帧的帧级计数可能存在5%误差

预训练模型

引用

bibtex @article{AminiNaieni25, title={Open-World Object Counting in Videos}, author={Amini-Naieni, N. and Zisserman, A.}, journal={arXiv preprint arXiv:2506.15368}, year={2025} }

@InProceedings{AminiNaieni24, title = {CountGD: Multi-Modal Open-World Counting}, author = {Amini-Naieni, N. and Han, T. and Zisserman, A.}, booktitle = {Advances in Neural Information Processing Systems (NeurIPS)}, year = {2024}, }

致谢

搜集汇总
数据集介绍
构建方式
VideoCount数据集通过整合多个公开视频数据集构建而成,涵盖TAO、MOT20以及科学计数场景(企鹅与晶体)等多样化视频内容。数据采集过程中,采用帧级标注策略,每个视频片段均包含全局计数和逐帧累积计数的精确标注。针对科学计数场景的特殊性,如企鹅视频中难以区分的海鸟类别,采用统一文本提示进行标注;对于高密度晶体场景,则允许5%的标注误差容忍度以应对高度重叠目标。数据集构建时严格遵循原始数据集的许可协议,并通过JSON文件结构化存储标注信息,确保数据可追溯性与格式统一性。
使用方法
使用VideoCount需先下载并解压数据集至指定目录,通过修改配置文件路径建立数据关联。评估流程提供模块化设计:对于TAO和MOT20场景,运行专用测试脚本生成预测文件后,调用统一评估器计算计数准确率;科学计数场景则支持文本提示、示例图像及多模态三种输入模式的独立测试。典型使用流程包括:配置预训练模型路径、指定输入数据目录、选择评估模式(如纯文本模式需设置num_exemplars=0),最后执行评估脚本输出MAE等指标。数据集兼容PyTorch框架,需预先安装SAM2和Detectron2等依赖库以实现完整功能。
背景与挑战
背景概述
VideoCount数据集由Niki Amini-Naieni和Andrew Zisserman团队于2025年提出,旨在解决视频中开放世界物体计数这一前沿问题。该数据集构建于计算机视觉与深度学习技术蓬勃发展的背景下,特别关注多目标跟踪与物体计数在复杂场景中的应用。作为CountVid项目的核心组成部分,VideoCount整合了来自TAO、MOT20等权威基准的数据,并创新性地引入了科学计数场景(如企鹅群落和晶体生长监测),为视频物体计数领域提供了首个综合性评估平台。其多模态设计融合了文本描述和示例图像,显著提升了模型在开放环境下的适应能力,对智能监控、生态学研究等领域具有重要价值。
当前挑战
VideoCount数据集面临的挑战主要体现在两个方面:领域问题层面,开放世界视频物体计数需解决目标外观剧烈变化、严重遮挡以及跨帧身份保持等难题,尤其在晶体生长等密集场景中,传统方法难以处理高达5%的标注误差;构建过程层面,数据集整合了多个异构视频源,需统一不同基准的标注标准,科学计数场景中相似物种(如企鹅与鸬鹚)的区分对人工标注提出极高要求,而晶体视频后期帧的极端密集分布导致标注一致性难以保证。此外,多模态数据(文本与示例图像)的协同标注与验证也大幅增加了数据集构建的复杂度。
常用场景
经典使用场景
VideoCount数据集在视频对象计数领域具有广泛的应用价值,尤其在开放世界场景下的多目标追踪与计数任务中表现卓越。该数据集通过整合来自不同领域的视频数据,如科学实验中的晶体生长监测、野生动物保护中的企鹅种群统计,以及城市交通中的车辆流量分析,为研究者提供了一个全面且多样化的测试平台。其多模态设计支持基于文本描述和示例图像的混合查询方式,极大提升了复杂场景下的计数精度。
解决学术问题
该数据集有效解决了开放世界视频对象计数中的三大核心难题:跨场景泛化能力不足、动态目标重叠遮挡导致的计数偏差,以及少样本条件下的语义理解局限。通过引入帧级累积计数标注和全局唯一对象标识,显著提升了长视频序列中目标身份保持的准确性。在计算机视觉顶级会议NeurIPS 2024的相关研究中,该数据集的基准测试推动了对多模态特征融合机制的深入探索,为开放世界理解任务建立了新的评估标准。
实际应用
在实际应用层面,VideoCount已成功部署于南极生态监测系统,通过自动统计企鹅种群数量变化辅助生物多样性研究。在材料科学领域,该数据集支撑的算法能够精确量化晶体生长过程中的晶核数量变化,为实验室自动化观测提供关键技术支持。交通管理部门则利用其多目标追踪能力,实现城市交叉路口车辆流量的实时统计分析,优化信号灯控制策略。这些应用验证了算法在真实场景下的鲁棒性和实用性。
数据集最近研究
最新研究方向
在视频分析领域,开放世界对象计数技术正逐渐成为研究热点。VideoCount数据集作为该领域的重要资源,为多模态开放世界计数提供了丰富的实验场景。最新研究聚焦于结合文本描述和示例图像的多模态方法,通过融合语义信息和视觉特征提升复杂场景下的计数精度。特别是在晶体生长监测、野生动物种群统计等科学场景中,该数据集支持开发鲁棒性更强的计数模型,解决了传统方法在对象重叠、形变和遮挡情况下的性能瓶颈。相关技术已应用于生态监测和工业检测等实际场景,推动了计算机视觉与领域知识的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作