five

PreVAD (Pre-training Video Anomaly Dataset)

收藏
arXiv2025-03-17 更新2025-03-19 收录
下载链接:
http://arxiv.org/abs/2503.13160v1
下载链接
链接失效反馈
官方服务:
资源简介:
PreVAD数据集是由中国传媒大学研究团队构建的,是目前为止规模最大、多样性最丰富的视频异常数据集。它包含了35,279个视频,涵盖犯罪、交通、动物、事故和生产等多个领域,每个视频都带有详细的异常描述和多级类别标签。该数据集通过利用基础模型自动化数据清洗和注释的可扩展数据策展管道进行构建,显著降低了人工标注成本,同时确保了高质量。PreVAD的创建旨在增强模型在新的范式下的泛化能力,并为开放世界场景下的视频异常检测提供支持。

The PreVAD dataset, constructed by the research team from Communication University of China, is the largest and most diverse video anomaly dataset to date. It contains 35,279 videos spanning multiple domains including crime, traffic, animals, accidents, and industrial production, with each video accompanied by detailed anomaly descriptions and multi-level category labels. This dataset was built using a scalable data curation pipeline that leverages foundation models for automated data cleaning and annotation, which significantly reduces manual annotation costs while ensuring high data quality. The PreVAD dataset was developed to enhance the generalization ability of models under novel paradigms and support video anomaly detection in open-world scenarios.
提供机构:
中国传媒大学
创建时间:
2025-03-17
搜集汇总
数据集介绍
main_image_url
构建方式
PreVAD数据集的构建采用了大规模的视频数据收集与标注流程,结合了多种基础模型以确保数据质量与多样性。数据来源包括现有的视频-文本数据集、网络资源以及监控视频流。通过多模态大语言模型(MLLM)生成详细的视频描述,并使用视觉-语言模型(VLM)验证描述与视频内容的一致性。每个视频均标注了多级类别标签和异常描述,确保了数据的高质量与语义丰富性。
特点
PreVAD数据集是目前规模最大且多样性最丰富的视频异常检测数据集,包含35,279个标注视频,涵盖犯罪、交通、动物相关暴力、生产事故等多个领域。其独特之处在于每个异常视频均配有详细的文本描述,帮助模型更好地理解异常行为。此外,数据集采用层次化分类体系,涵盖从轻微到严重的多种异常类型,进一步增强了模型的泛化能力。
使用方法
PreVAD数据集主要用于训练和评估开放世界视频异常检测模型,特别是支持语言引导的异常检测任务。用户可以通过输入自然语言定义异常行为,模型根据视频内容和用户提供的定义动态调整检测逻辑。该数据集支持零样本跨域评估,能够在多个公开数据集上进行性能验证,显著提升了模型在开放世界场景中的适应性和泛化能力。
背景与挑战
背景概述
PreVAD(Pre-training Video Anomaly Dataset)是由中国传媒大学的Zihao Liu、Xiaoyu Wu等研究人员于2025年提出的一个大规模视频异常检测数据集。该数据集旨在解决开放世界场景下视频异常检测中的概念漂移问题,即异常的定义可能随着用户需求的变化而动态调整。PreVAD包含35,279个标注视频,涵盖了多层次的类别标签和异常描述,是目前规模最大、多样性最丰富的视频异常检测数据集之一。该数据集的提出为开放世界视频异常检测模型提供了丰富的训练资源,推动了该领域的研究进展。
当前挑战
PreVAD数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,开放世界视频异常检测的核心挑战在于如何应对异常定义的动态变化。传统的异常检测方法假设异常定义是固定的,无法适应开放世界场景中用户需求的变化。PreVAD通过引入语言引导的异常定义,试图解决这一问题,但如何有效建模视频与文本定义之间的复杂映射关系仍是一个难题。其次,在数据集构建过程中,PreVAD面临数据多样性、标注质量和规模扩展的挑战。尽管通过自动化数据清洗和标注流程减少了人工成本,但如何确保视频内容的多样性和标注的准确性,尤其是在跨场景和跨领域的异常定义上,仍然是一个亟待解决的问题。
常用场景
经典使用场景
PreVAD数据集在视频异常检测领域中被广泛应用于开放世界场景下的异常检测任务。其经典使用场景包括智能监控、交通管理以及公共安全等领域。在这些场景中,PreVAD通过其大规模、多样化的视频数据和多层次的异常描述,帮助模型动态适应用户定义的异常行为。例如,在流感爆发期间,未佩戴口罩的行为可能被视为异常,而在其他情况下则被视为正常。PreVAD通过语言引导的检测范式,能够灵活应对这种异常定义的动态变化。
衍生相关工作
PreVAD数据集的推出催生了一系列相关研究工作,尤其是在开放世界视频异常检测领域。基于PreVAD,研究人员提出了LaGoVAD模型,该模型通过动态视频合成和对比学习策略,显著提升了模型在开放世界场景中的泛化能力。此外,PreVAD还为其他研究提供了丰富的数据支持,推动了多模态学习、零样本学习等领域的发展。例如,基于PreVAD的研究工作进一步探索了视频与文本的对齐、异常检测的细粒度描述等问题,为视频异常检测领域带来了新的研究方向。
数据集最近研究
最新研究方向
近年来,视频异常检测(Video Anomaly Detection, VAD)领域的研究逐渐从封闭世界场景转向开放世界场景。传统的VAD方法假设异常的定义是固定的,无法应对开放世界中异常定义的动态变化。针对这一问题,研究者提出了基于语言引导的开放世界VAD范式,通过用户提供的自然语言动态定义异常。这一范式要求建立从视频和文本定义到异常评分的鲁棒映射。为此,研究者提出了LaGoVAD模型,该模型通过动态视频合成和对比学习两种正则化策略,增强了模型的适应性和鲁棒性。为了支持这一新范式的训练,研究者构建了PreVAD数据集,这是迄今为止规模最大、多样性最丰富的视频异常检测数据集,包含35,279个带有多级类别标签和异常描述的视频。该数据集为零样本实验提供了坚实的基础,并在多个数据集上实现了最先进的性能。这一研究方向的突破不仅推动了开放世界VAD的发展,也为智能监控、安防等领域的实际应用提供了新的可能性。
相关研究论文
  • 1
    Language-guided Open-world Video Anomaly Detection中国传媒大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作