C-VAD datasets (Customizable-ShT, Customizable-Ave)

Name: C-VAD datasets (Customizable-ShT, Customizable-Ave)
Creator: 韩国延世大学
Published: 2025-03-06 22:52:34
License: 暂无描述

arXiv2025-03-06 更新2025-03-11 收录

下载链接：

https://github.com/SkiddieAhn/Paper-AnyAnomaly

下载链接

链接失效反馈

官方服务：

资源简介：

C-VAD 数据集是由韩国延世大学构建的，针对特定异常事件类型组织视频数据的新数据集。与传统的 VAD 数据集不同，C-VAD 数据集根据异常事件类型对视频进行分类，使得可以针对特定类型的异常进行精确的性能评估。本文中使用了 Customizable-ShT 和 Customizable-Ave 两个 C-VAD 数据集进行模型验证。

The C-VAD dataset is a novel video dataset developed by Yonsei University in South Korea, which organizes video data based on specific anomalous event types. Unlike traditional VAD datasets, the C-VAD dataset classifies videos according to their anomalous event categories, enabling precise performance evaluation for specific types of anomalies. In this paper, two C-VAD dataset variants, Customizable-ShT and Customizable-Ave, are utilized for model validation.

提供机构：

韩国延世大学

创建时间：

2025-03-06

搜集汇总

数据集介绍

构建方式

C-VAD数据集通过将现有的VAD基准数据集重新分类为异常类型来构建。具体来说，研究人员选择了CUHK Avenue（Ave）和ShanghaiTech Campus（ShT）数据集，并根据异常事件的类型对这些数据集进行了重新组织。在C-ShT数据集中，测试数据被重新组织为11种异常事件类型，并对每种类型分配了新的标签。在C-Ave数据集中，测试数据被重新组织为5种异常事件类型，并采用了与C-ShT相同的标签分配方法。这种分类方法使得研究人员能够对特定类型的异常事件进行精确的检测性能评估。

特点

C-VAD数据集的特点在于其可定制的异常检测能力。传统的VAD模型依赖于学习到的正常模式，这使得它们难以应用于多样化的环境。然而，C-VAD允许用户定义文本作为异常事件，并根据用户提供的文本在视频中检测包含这些事件的帧。这意味着，随着视觉文本分析的可定制性不断提高，异常检测在各种环境中的效果也会更加有效。此外，C-VAD数据集还展示了AnyAnomaly模型在UBnormal数据集上的SOTA性能，并且在所有数据集上的泛化能力优于其他方法。

使用方法

C-VAD数据集的使用方法包括将用户定义的文本作为异常事件，并在视频中检测包含这些事件的帧。具体来说，AnyAnomaly模型采用了一种基于上下文感知的视觉问答方法，无需对大型视觉语言模型进行微调。该方法利用了位置上下文和时间上下文信息，以增强LVLM对场景的理解。用户可以通过提供异常事件的文本描述，让AnyAnomaly模型在视频中进行异常检测。此外，AnyAnomaly模型还采用了分段级方法，将连续的帧分组为一个单独的段进行处理，从而降低了处理大型视频的延迟。

背景与挑战

背景概述

视频异常检测（VAD）在计算机视觉的视频分析和监控中扮演着至关重要的角色。然而，现有的VAD模型依赖于学习的正常模式，这使得它们难以应用于多样化的环境。因此，用户需要重新训练模型或为新的环境开发单独的AI模型，这需要机器学习专业知识、高性能硬件和广泛的数据收集，从而限制了VAD的实际可用性。为了解决这些挑战，本研究提出了可定制的视频异常检测（C-VAD）技术和AnyAnomaly模型。C-VAD将用户定义的文本视为异常事件，并检测视频中含有指定事件的帧。我们有效地实现了AnyAnomaly，使用上下文感知的视觉问答，无需对大型视觉语言模型进行微调。为了验证所提出模型的有效性，我们构建了C-VAD数据集，并展示了AnyAnomaly的优越性。此外，我们的方法在VAD基准数据集上表现出了竞争性的性能，在UBnormal数据集上实现了最先进的成果，并在所有数据集上的泛化性能优于其他方法。我们的代码可在github.com/SkiddieAhn/Paper-AnyAnomaly上在线获取。

当前挑战

1) 领域问题挑战：C-VAD数据集解决了视频异常检测（VAD）在多样化环境中的应用问题。现有的VAD模型依赖于学习的正常模式，难以适应新环境，需要重新训练或开发新的AI模型。2) 构建过程中的挑战：构建C-VAD数据集时，需要将现有的VAD基准数据集按照异常类型进行分类，并重新标记每个异常类型的数据，这需要大量的人力和时间成本。

常用场景

经典使用场景

C-VAD数据集（Customizable-ShT, Customizable-Ave）的提出，主要针对视频异常检测（VAD）中传统方法难以适应不同环境的挑战。该数据集通过用户自定义的文本作为异常事件，有效地检测视频中包含指定事件的帧。C-VAD技术的核心在于利用上下文感知的视觉问答（VQA）方法，无需微调大型视觉语言模型（LVLM）。这种方法使得视频异常检测在校园、道路等多种环境中具有更好的泛化能力。

衍生相关工作

C-VAD数据集的提出，不仅为视频异常检测领域带来了新的研究方向，还衍生了一系列相关的工作。例如，基于C-VAD数据集的研究可以进一步探索如何利用LVLM进行更精准的异常事件检测，以及如何优化VQA方法的性能。此外，C-VAD技术的应用还可以扩展到其他领域，如异常行为识别、智能视频分析等，为相关研究提供了新的思路和可能性。

数据集最近研究