Video Anomaly Detection Dataset (VADD)

github2025-06-02 更新2025-06-11 收录

下载链接：

https://github.com/erktkdg/MTFL

下载链接

链接失效反馈

官方服务：

资源简介：

VADD包含2,591个视频，帧率为30 fps，分辨率为320×240像素，其中2,202个为训练视频，389个为测试视频。VADD的子文件夹根据视频类别命名，共有18个子文件夹。训练集的注释仅包括类别标签，而测试集的注释包含视频类别标签、视频总帧数以及异常事件的起始和结束帧位置。

VADD contains 2,591 videos with a frame rate of 30 fps and a resolution of 320×240 pixels. Among them, 2,202 are training videos and 389 are test videos. The subfolders of VADD are named based on video categories, totaling 18 subfolders. Annotations for the training set only include category labels, while annotations for the test set contain video category labels, the total number of frames in the video, as well as the start and end frame positions of abnormal events.

创建时间：

2025-06-02

原始信息汇总

MTFL数据集概述

数据集基本信息

数据集名称: Video Anomaly Detection Dataset (VADD)
数据量: 2,591个视频
帧率: 30 fps
分辨率: 320×240像素
训练集: 2,202个视频
测试集: 389个视频
类别数: 18类

数据集结构

训练集标注格式:

[子文件夹/视频名称] [视频标签]
测试集标注格式:

[子文件夹/视频名称] [视频标签] [总帧数] [起始帧1] [结束帧1] [起始帧2]...

数据集特点

多时间尺度特征学习: 使用短、中、长时间尺度的视频片段提取时空特征
异常检测性能:
- UCF-Crime: 89.78% AUC
- ShanghaiTech: 95.32% AUC
- XD-Violence: 84.57% AP
异常识别性能:
- UCF-Crime: 45.53% 平均准确率
- VADD: 50.34% 平均准确率

模型检查点

异常检测检查点:
- MTFL_VST_Kinetics400: 使用Kinetics400预训练的VST-RGB特征
- MTFL_VST_VADD: 使用VADD预训练的VST<sub>Aug</sub>_RGB特征
异常识别检查点:
- 提供7个检查点，基于4折交叉验证

特征提取

特征提取器:
- Video Swin Transformer预训练模型
  - Kinetics-400预训练
  - VADD预训练
特征类型:
- VST_RGB特征
- VST<sub>Aug</sub>_RGB特征

环境与工具

环境要求: 需安装requirements.txt中的依赖
文件夹结构:
- demo/
  - detection/: 异常检测代码
  - recognition/: 异常识别代码
  - utils/: 工具脚本
  - test_videos/: 测试视频存放目录
  - Annotation/: 标注文件存放目录
  - features/: 特征存放目录
  - results/: 结果存放目录

使用说明

特征提取: bash python utils/feature_extractor.py --clip_length [8/32/64]
异常检测:
- 训练: bash python detection/train.py --train_anno [训练标注文件] --test_anno [测试标注文件]
- 测试: bash python detection/test.py --test_anno [测试标注文件] --detection_model [检查点路径]
异常识别:
- 训练: bash python recognition/train.py --train_anno [训练标注文件] --test_anno [测试标注文件]
- 测试: bash python recognition/test.py --test_anno [测试标注文件] --recognition_model [检查点路径]

搜集汇总

数据集介绍

构建方式

在视频异常检测领域，VADD数据集的构建体现了对现实场景异常事件的全面覆盖。该数据集包含2,591个视频，帧率为30fps，分辨率为320×240像素，分为2,202个训练视频和389个测试视频。视频按18个类别分类存储于子文件夹中，训练集标注仅包含类别标签，而测试集标注则更为详细，包括视频类别标签、总帧数以及异常事件的起止帧位置。这种精细的标注方式为模型训练和评估提供了丰富的信息。

使用方法

使用VADD数据集进行异常检测研究时，需遵循特定的数据处理流程。首先需要通过特征提取工具生成多时间尺度的特征表示，支持8、32和64帧三种长度的时序片段分析。检测模型训练采用标准的监督学习范式，需准备训练和测试标注文件。数据集还支持4折交叉验证，与现有研究保持一致性。对于异常识别任务，数据集提供了预训练的特征提取器和分片策略，研究者可直接加载使用或在此基础上进行迁移学习。

背景与挑战

背景概述

视频异常检测数据集（Video Anomaly Detection Dataset, VADD）由研究团队在2024年提出，作为UCF-Crime数据集的扩展版本，旨在解决监控视频中复杂异常事件的识别问题。该数据集包含2,591段视频，覆盖18类现实场景中的异常行为，如危险投掷和乱扔垃圾等。VADD的构建依托于多时间尺度特征学习（MTFL）方法，通过Video Swin Transformer提取时空特征，显著提升了异常检测的准确率。其在UCF-Crime、ShanghaiTech和XD-Violence等基准数据集上的表现验证了其有效性，为公共安全领域的智能监控研究提供了重要数据支持。

当前挑战

VADD面临的挑战主要体现在两个方面：领域问题的复杂性与数据构建的技术难度。在领域层面，监控视频中的异常行为通常具有多样性和模糊性，如何区分细微的异常动作与正常活动仍是核心难题。数据构建过程中，标注工作面临巨大挑战，异常事件的起始帧定位需要精确到具体时间点，且部分异常行为持续时间短，增加了标注的难度。此外，数据集的规模扩展与类别平衡也需要精心设计，以确保模型训练的泛化能力。

常用场景

经典使用场景

在智能监控领域，Video Anomaly Detection Dataset (VADD) 作为一项重要的视频异常检测数据集，广泛应用于公共场所安全监控。该数据集通过捕捉18类不同异常行为，如乱丢垃圾和危险投掷等，为研究者提供了丰富的视频样本。其多时间尺度特征学习框架能够有效识别视频中的异常片段，适用于监控视频的实时分析与处理。

解决学术问题

VADD数据集解决了视频异常检测领域中样本不足和标注不精确的问题。通过提供2591个标注视频，覆盖多样化的异常场景，该数据集显著提升了模型在复杂环境下的泛化能力。其创新的多时间尺度特征学习方法（MTFL）在UCF-Crime和ShanghaiTech等基准数据集上取得了领先的检测性能，推动了弱监督异常检测算法的研究进展。

实际应用

在实际应用中，VADD数据集为智能安防系统提供了关键技术支持。基于该数据集训练的模型可部署于机场、地铁站等公共场所，实时检测暴力行为、物品遗留等安全隐患。其高精度的异常识别能力显著降低了人工监控成本，同时提升了公共安全事件的响应效率，具有广泛的社会应用价值。

数据集最近研究