UCFCrime-AR, XDViolence-AR
收藏arXiv2024-02-28 更新2024-06-21 收录
下载链接:
https://github.com/Roc-Ng/VAR
下载链接
链接失效反馈官方服务:
资源简介:
UCFCrime-AR和XDViolence-AR是两个大规模的视频异常检索数据集,旨在通过文本描述或同步音频检索相关异常视频。UCFCrime-AR包含1900个未修剪视频,用于视频-文本异常检索,而XDViolence-AR则用于视频-音频异常检索。这些数据集由西北工业大学计算机学院国家工程实验室创建,用于推动视频异常分析的研究。数据集中的视频来自多种场景,包括现实世界的异常事件和正常活动,旨在解决视频异常检测中单一标签无法充分描述异常事件的问题。
UCFCrime-AR and XDViolence-AR are two large-scale video anomaly retrieval datasets developed to retrieve relevant anomalous videos via text descriptions or synchronized audio. UCFCrime-AR includes 1,900 untrimmed videos for video-text anomaly retrieval tasks, while XDViolence-AR is designed for video-audio anomaly retrieval. These datasets were created by the National Engineering Laboratory of the School of Computer Science, Northwestern Polytechnical University, to advance research in video anomaly analysis. The videos in the datasets are sourced from various scenarios, including real-world anomalous events and normal activities, and aim to address the limitation that single labels cannot fully describe anomalous events in video anomaly detection.
提供机构:
西北工业大学计算机学院国家工程实验室
创建时间:
2023-07-24
搜集汇总
数据集介绍

构建方式
该数据集的构建基于公开的视频异常检测(VAD)数据集,UCFCrime-AR和XDViolence-AR分别应用于视频-文本和视频-音频的异常事件检索。UCFCrime-AR包含1900个未修剪的视频,其中950个为异常视频,950个为正常视频。为了实现跨模态检索,邀请了8位经验丰富的注释员对视频进行中英文描述,尤其关注异常事件。XDViolence-AR则包含3954个长视频用于训练,800个用于测试,由于视频内容复杂,难以用几句话描述,因此转向音频-视频检索,使用视频和同步音频进行跨模态异常事件检索。
特点
UCFCrime-AR和XDViolence-AR是两个大规模的视频异常事件检索(VAR)基准数据集,分别用于视频-文本和视频-音频的检索。它们的特点是包含长未修剪的视频,且视频内容丰富多样,平均视频长度远长于传统视频检索数据集。此外,这些数据集同时包含异常视频和正常视频,使得检索系统需要在给定的跨模态查询下检索两种类型的视频。
使用方法
使用该数据集的方法主要包括构建检索模型和进行检索实验。构建检索模型时,可以使用视频编码器、文本编码器和音频编码器将原始数据编码为高级表示,然后引入跨模态对齐来匹配来自不同视角的跨模态表示。在检索实验中,可以使用文本描述或同步音频作为查询,通过模型检索相关的未修剪视频。此外,还可以使用粗略的描述进行检索,以验证模型的泛化能力。
背景与挑战
背景概述
视频异常检测(VAD)作为视频内容分析中的关键环节,其应用潜力引起了广泛关注。目前,VAD的主要任务集中在在线异常检测上,即对异常事件进行二分类或多分类。然而,这种将复杂的异常事件与单一标签关联起来的做法是浅显的,因为单一标签不足以描述异常事件。实际上,用户更倾向于通过详细的描述来搜索特定的视频,而非一系列近似视频。因此,使用详细描述来检索异常事件是实用且积极的,但相关研究却相对较少。在这种情况下,我们提出了一种新的任务——视频异常检索(VAR),旨在通过跨模态方式(如语言描述和同步音频)检索相关的异常视频。与传统视频检索不同,VAR旨在检索长未修剪的视频,这些视频可能仅部分与给定的查询相关。为了实现这一目标,我们提出了两个大规模的VAR基准数据集UCFCrime-AR和XDViolence-AR,并设计了一种名为Anomaly-Led Alignment Network(ALAN)的模型用于VAR。在ALAN中,我们提出了基于异常的采样方法,以关注长未修剪视频中的关键片段。然后,我们引入了一种有效的预训练任务来增强视频-文本细粒度表示之间的语义关联。此外,我们还利用两种互补的校准来进一步匹配跨模态内容。在两个基准数据集上的实验结果表明,VAR任务具有挑战性,同时也证明了我们的定制方法的优点。
当前挑战
视频异常检索(VAR)任务面临的挑战包括:1) 所解决的领域问题的挑战,即如何通过跨模态方式(如语言描述和同步音频)检索相关的异常视频;2) 构建过程中所遇到的挑战,例如如何设计有效的模型和采样机制来处理长未修剪视频中的关键片段,以及如何增强视频-文本细粒度表示之间的语义关联。此外,VAR任务还需要解决传统视频检索和视频时刻检索方法无法解决的挑战,例如如何处理长未修剪视频和部分相关片段的问题。
常用场景
经典使用场景
在视频异常检索(VAR)领域,UCFCrime-AR 和 XDViolence-AR 数据集被广泛用于研究和开发新的视频异常检索模型。这些数据集包含了大量的视频数据,包括异常和正常事件,以及对应的文本描述和同步音频。研究人员可以利用这些数据集来训练和评估视频异常检索模型,以实现对特定异常事件的检索和识别。例如,可以检索包含特定犯罪行为或暴力行为的视频,或者检索包含特定物体或场景的视频。
解决学术问题
UCFCrime-AR 和 XDViolence-AR 数据集解决了视频异常检索中的多个学术研究问题。首先,这些数据集提供了大量真实世界场景中的视频数据,使得研究人员可以更好地理解视频异常检索的挑战和需求。其次,这些数据集包含了异常和正常事件,以及对应的文本描述和同步音频,使得研究人员可以更好地研究多模态信息融合和异常事件描述问题。最后,这些数据集提供了可重复和可验证的实验结果,有助于推动视频异常检索领域的研究进展。
衍生相关工作
UCFCrime-AR 和 XDViolence-AR 数据集衍生了许多相关的经典工作。例如,研究人员提出了基于深度学习的视频异常检索模型,如 Anomaly-Led Alignment Network (ALAN),以实现更精确的异常事件检索。此外,这些数据集还被用于开发新的视频异常检测和识别算法,以提高监控系统的准确性和可靠性。此外,这些数据集还被用于开发新的视频异常检索和识别算法,以提高监控系统的准确性和可靠性。
以上内容由遇见数据集搜集并总结生成



