VAGTA

github2026-03-18 更新2026-04-15 收录

下载链接：

https://github.com/ClarkZhu216/Alert-CLIP_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

VAGTA（带有文本注释的视频异常数据集）是一个多粒度视频异常数据集，用于训练和评估视频异常检测（VAD）的视觉语言模型。该数据集包含4,212个精选剪辑，包括3,726个训练剪辑和486个测试剪辑。训练集包含2,585个分段正常剪辑和1,141个异常剪辑。每个剪辑都配备了多粒度注释，包括全局字幕、区域级字幕、异常区域的边界框和硬负字幕。这些注释旨在支持视频异常检测的多级视觉语言对齐。

VAGTA (Video Anomaly Dataset with Text Annotations) is a multi-granularity video anomaly dataset for training and evaluating vision-language models for video anomaly detection (VAD). This dataset contains 4,212 curated clips, including 3,726 training clips and 486 test clips. The training set consists of 2,585 segmented normal clips and 1,141 anomalous clips. Each clip is equipped with multi-granularity annotations, including global captions, region-level captions, bounding boxes of anomalous regions, and hard negative captions. These annotations are designed to support multi-level vision-language alignment for video anomaly detection.

创建时间：

2026-03-18

原始信息汇总

Alert-CLIP_dataset 数据集概述

数据集简介

Alert-CLIP_dataset 提供了视频异常数据集 VAGTA（Video Anomaly Dataset with Grounded Text Annotations）的标注与元数据。该数据集旨在用于训练和评估面向视频异常检测（VAD）的视觉-语言模型。

数据来源与构成

VAGTA 数据集通过对 UCF-Crime 和 MSAD 官方划分的视频进行重新标注构建而成。
数据集总计包含 4,212 个精选视频片段。
- 训练集：3,726 个片段。
  - 其中包含 2,585 个分割的正常片段 和 1,141 个异常片段。
- 测试集：486 个片段。

标注信息

每个视频片段均配备多粒度标注，包括：

全局描述（Global captions）
区域级描述（Region-level captions）
异常区域边界框（Bounding boxes for abnormal regions）
困难负样本描述（Hard-negative captions）这些标注旨在支持视频异常检测任务中的多层级视觉-语言对齐。

重要说明

本仓库当前提供：标注文件、描述文件、划分文件、元数据/索引文件以及文档。
原始视频未包含在本仓库中。用户需从 UCF-Crime 和 MSAD 的官方来源获取原始视频，并使用本仓库提供的元数据将其与 VAGTA 标注对齐。

仓库结构

VAGTA/ ├── annotations/ ├── captions/ ├── splits/ ├── metadata/ └── README.md

搜集汇总

数据集介绍

构建方式

在视频异常检测领域，数据集的构建质量直接影响模型性能。VAGTA数据集通过重新标注UCF-Crime和MSAD官方分割中的视频片段，构建了一个包含4,212个精选视频片段的多粒度标注资源。该数据集精心划分了3,726个训练片段与486个测试片段，其中训练部分进一步细分为2,585个正常片段与1,141个异常片段。每个片段均配备了全局描述、区域级描述、异常区域边界框及硬负样本描述，形成了层次化的标注体系，为视觉-语言对齐研究提供了结构化基础。

使用方法

使用VAGTA数据集时，研究者需首先从UCF-Crime与MSAD官方渠道获取原始视频，并利用本仓库提供的元数据文件将视频与标注对齐。数据集的结构化目录包含标注、描述、分割与元数据文件，用户可依据分割文件加载训练与测试集，结合多粒度标注进行模型训练与评估。在视觉-语言模型训练中，可同时利用全局描述与区域描述进行多任务学习，或通过硬负样本描述设计对比学习策略。该数据集的标注格式支持直接集成至主流深度学习框架，便于开展视频异常检测的端到端实验验证。

背景与挑战

背景概述

视频异常检测作为计算机视觉领域的关键研究方向，致力于识别监控视频中的非常规事件，对于公共安全与智能安防具有深远意义。VAGTA数据集由研究团队于近年构建，其核心目标在于通过细粒度的文本标注，推动视觉-语言模型在视频异常检测任务中的发展。该数据集基于UCF-Crime与MSAD两大经典数据集的视频素材进行重新标注，共包含4212个精选视频片段，涵盖全局描述、区域级描述、异常区域边界框及硬负例描述等多层次注释。VAGTA的创建不仅丰富了视频异常检测的数据资源，更为多粒度视觉-语言对齐研究提供了重要基准，显著提升了模型在复杂场景下的理解与泛化能力。

当前挑战

在视频异常检测领域，模型需准确识别并定位多样化的异常行为，同时区分正常与异常场景的细微差异，这对模型的鲁棒性与泛化性能提出了严峻考验。VAGTA数据集构建过程中，研究团队面临多重挑战：一是标注一致性难以保障，异常行为的主观性与场景多样性导致标注标准统一复杂；二是多粒度注释的协同标注耗费大量人力，需确保全局描述与区域级描述的逻辑连贯；三是数据来源依赖外部数据集，原始视频的获取与对齐增加了使用门槛。这些挑战共同凸显了高质量、细粒度视频异常数据集的稀缺性与构建难度。

常用场景

经典使用场景

在视频异常检测领域，VAGTA数据集凭借其多粒度文本标注特性，常被用于训练和评估视觉-语言模型。研究者通过该数据集，能够精细地探索视频中正常与异常行为的语义边界，尤其在全局描述、区域级标注及边界框的协同作用下，模型得以学习从视觉信号到文本概念的跨模态对齐，从而提升对复杂场景下异常事件的识别精度与解释能力。

解决学术问题

VAGTA数据集有效应对了视频异常检测中标注稀疏与语义鸿沟的学术挑战。通过提供丰富的多粒度文本注释，包括全局描述、区域级细粒度标注及硬负例样本，该数据集支持模型进行多层次视觉-语言对齐研究，解决了传统方法仅依赖二值标签导致的模型泛化能力不足问题，并为可解释性异常检测提供了坚实的实验基础。

实际应用

在实际安防监控与智能视频分析系统中，VAGTA数据集的应用显著提升了异常事件自动检测的可靠性。基于其标注体系开发的模型能够实时解析监控画面，准确识别如盗窃、斗殴等异常行为，并生成可读的文本描述，辅助安全人员快速响应。该数据集亦推动了工业质检、交通管理等场景的智能化进程。

数据集最近研究