VSCrowd

Name: VSCrowd
Creator: 墨尔本大学计算与信息系统学院
Published: 2022-08-08 12:22:04
License: 暂无描述

arXiv2022-08-08 更新2024-06-21 收录

下载链接：

https://github.com/HopLee6/VSCrowd

下载链接

链接失效反馈

官方服务：

资源简介：

VSCrowd是一个大规模的视频人群定位数据集，由墨尔本大学计算与信息系统学院的研究团队创建。该数据集包含超过60,000帧高清监控视频，覆盖多种场景，如商场、街道和景点，共有超过234万个头部标注。数据集不仅提供了头部中心的点标注，还包括每个个体的边界框和轨迹信息，适用于视频人群定位和计数等任务。VSCrowd数据集的创建旨在推动视频人群分析技术的发展，特别是在复杂场景下的人群定位和行为理解。

VSCrowd is a large-scale video crowd localization dataset created by the research team from the School of Computing and Information Systems at the University of Melbourne. This dataset contains over 60,000 frames of high-definition surveillance videos, covering various scenarios including shopping malls, streets and tourist attractions, with more than 2.34 million head annotations. Besides the point annotations of head centers, it also provides bounding boxes and trajectory information for each individual, which is suitable for tasks such as video crowd localization and counting. The creation of the VSCrowd dataset aims to advance the development of video crowd analysis technologies, particularly crowd localization and behavior understanding in complex scenarios.

提供机构：

墨尔本大学计算与信息系统学院

创建时间：

2021-07-19

搜集汇总

数据集介绍

构建方式

VSCrowd 数据集的构建采用了多种来源的视频数据，包括从互联网上收集的视频以及静态摄像头拍摄的监控视频。为了减少视频中的时间冗余，收集的视频被下采样到 5FPS。然后，将所有视频分割成大约 20 秒的片段，每个片段包含大约 100 帧。最后，634 个片段（共 62,938 帧）被收集并标注。标注工作在 SenseBee 平台上进行，由超过 30 名经过培训的标注员完成，他们为每帧视频提供了人头中心、头部和肩部区域的边界框以及每个人的唯一 ID。为了保证标签的准确性，标注完成后，额外的工人负责检查和改进标签的质量，最终确保标签的准确率达到 97% 以上。

特点

VSCrowd 数据集具有以下特点：1) 规模大：包含 62,938 帧高分辨率监控视频和 2,344,276 个标注人头。2) 场景多样性：视频来自各种场景，例如广场、购物中心、街道交叉口和校园。3) 标注信息丰富：除了人头中心的点标注外，还提供了头部和肩部区域的边界框以及每个人的唯一 ID。4) 场景差异：训练集和测试集包含不同的视频，并且场景存在较大差异，使数据集更具挑战性。5) 头部大小变化大：人头大小分布呈长尾分布，反映了监控场景中头部大小变化的挑战。

使用方法

VSCrowd 数据集可用于视频人头定位、人头计数、行人重识别、目标跟踪等多种任务。使用该数据集进行训练时，需要将视频下采样到低帧率，并使用预训练的 VGGNet 作为主干网络提取语义特征。然后，使用场景建模模块和上下文交叉注意力模块聚合时空信息，并通过定位预测模块预测人头中心的定位图。此外，VSCrowd 数据集还可以用于单张图像人头定位任务，只需将场景建模模块和时序 GNA 模块丢弃，并直接使用图像特征作为场景上下文即可。

背景与挑战

背景概述

视频人群定位是一项至关重要的任务，它旨在估计人群中人头部的精确位置。近年来，基于深度学习的视频人群分析技术在公共安全领域引起了广泛关注。然而，大多数人群分析方法仅生成粗略的人群密度图，无法获得人头部的准确位置，这限制了其在人群跟踪和人群预测等下游任务中的应用。为了解决这一挑战，Li 等人提出了 VSCrowd 数据集，这是一个大规模的人群视频数据集，包含 60K+ 帧图像和 2M+ 头部注释。该数据集的创建旨在促进视频人群定位领域的研究，并为相关任务提供可靠的评估基准。

当前挑战

VSCrowd 数据集和相关研究面临着以下挑战：1) 极端拥挤场景中人头部的定位：由于人头部的尺寸小且相互重叠，传统的目标检测方法难以处理这种场景。2) 消除摄像机视角带来的尺度变化：VSCrowd 数据集中的视频是从不同场景中采集的，摄像机视角的变化导致人头部的尺寸发生变化，这对定位算法提出了更高的要求。3) 充分利用视频中的时空信息：视频人群定位需要考虑时间信息，而现有的方法大多仅基于单帧图像进行分析。4) 构建大规模标注数据集：VSCrowd 数据集的创建需要大量的人力物力，且标注过程需要严格的质量控制。

常用场景

经典使用场景

VSCrowd 数据集主要用于视频人群定位任务，旨在估计人群中每个个体头部的精确位置。该数据集包含了大量来自不同监控场景的视频帧和头部标注，为研究人员提供了丰富的训练数据，使得深度学习模型能够学习到人群的时空依赖关系，并准确地进行人群定位。

解决学术问题

VSCrowd 数据集解决了视频人群定位任务中数据集规模小、场景单一、头部尺度变化大等问题。以往的人群分析模型大多基于单张图片进行分析，无法利用视频中的时间信息，且在人群密集、头部重叠的情况下定位精度较低。VSCrowd 数据集提供了大规模、多样化的视频帧和头部标注，使得模型能够学习到更丰富的时空信息，并在不同场景和头部尺度下进行准确的定位。

衍生相关工作

VSCrowd 数据集的发布推动了视频人群定位领域的研究进展，衍生出了许多相关的经典工作。例如，基于 VSCrowd 数据集，研究人员提出了多种人群定位模型，如 GNANet、P2PNet 等，并在多个数据集上取得了优异的性能。此外，VSCrowd 数据集还促进了人群分析领域的其他研究，如人群计数、人群轨迹预测等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集