Malta Audio-Visual Anomaly Detection (MAVAD)
收藏arXiv2023-05-24 更新2024-06-21 收录
下载链接:
https://gitlab.au.dk/maleci/audiovisualanomalydetection
下载链接
链接失效反馈官方服务:
资源简介:
Malta Audio-Visual Anomaly Detection (MAVAD)数据集是由奥胡斯大学数字技术部创建的,用于交通视频中的异常检测。该数据集包含764个视频,涵盖多种天气和光照条件,从马耳他岛的三个不同地点收集。数据集通过模糊人脸和车牌来保护个人隐私,并包含11个类别,如行人、公交车和重型车辆等。创建过程涉及部署音频-视觉摄像头,并使用手工制作的掩码来防止记录私人财产。该数据集主要应用于视频异常检测,旨在通过结合视觉和音频特征提高异常检测的准确性。
The Malta Audio-Visual Anomaly Detection (MAVAD) Dataset was developed by the Department of Digital Technology, Aarhus University, for anomaly detection in traffic videos. Comprising 764 videos collected from three distinct locations on the island of Malta, this dataset covers a wide range of weather and lighting conditions. Personal privacy is protected via blurring of faces and license plates, and the dataset includes 11 categories including pedestrians, buses, and heavy-duty vehicles. During the dataset creation process, audio-visual cameras were deployed, and handcrafted masks were utilized to avoid recording private property. This dataset is primarily applied to video anomaly detection, aiming to improve the accuracy of anomaly detection by combining visual and audio features.
提供机构:
数字技术部,电气与计算机工程系,奥胡斯大学,丹麦
创建时间:
2023-05-24
搜集汇总
数据集介绍

构建方式
在交通监控领域,多模态异常检测数据集长期依赖合成数据,难以反映真实场景的复杂性。MAVAD数据集通过在马耳他岛三个不同地点部署音频-视觉摄像机,采集了764段真实交通场景视频,涵盖多种天气与光照条件。数据采集过程采用专业安防设备,视频分辨率与音频采样率均经过标准化处理。为保护隐私,研究团队运用YOLOv5检测器识别面部与车牌,并通过高斯模糊技术进行匿名化处理,同时保留原始音频信息以确保数据完整性。
特点
该数据集在交通异常检测领域具有显著的多模态特性,同步提供视觉与音频数据,弥补了现有数据集中真实场景音频缺失的空白。其内容涵盖11类交通事件,包括行人、车辆异常行为及特殊交通工具,并按照异构与特定异常的双重标准进行标注。数据集的匿名化处理在遵循欧洲隐私法规的前提下,仅导致平均1.7%的性能下降,展现了实用性与合规性的平衡。不同场景间的环境多样性为模型鲁棒性评估提供了坚实基础。
使用方法
MAVAD数据集支持弱监督学习范式,适用于视频异常检测的二元或多分类任务。研究者可提取预训练的视觉特征(如SlowFast)与音频特征(如VGGish),通过跨注意力机制进行多模态融合。数据已按场景划分为训练、验证与测试集,建议采用60/20/20的比例进行模型开发与评估。该数据集为验证音频对异常检测的增益提供了基准,其匿名化版本公开可用,便于学术社区复现与拓展研究。
背景与挑战
背景概述
在智能监控与计算机视觉领域,视频异常检测作为一项关键任务,旨在识别和定位视频序列中的非常规事件。然而,传统方法多依赖单一视觉模态,忽略了音频信息在复杂场景中的辅助价值。为此,由丹麦奥胡斯大学、马耳他大学及布鲁诺·凯斯勒基金会等机构的研究团队于2023年联合推出了马耳他视听异常检测数据集(MAVAD)。该数据集聚焦于交通场景中的异常行为识别,涵盖多种天气与光照条件,包含11类异常事件,如行人横穿马路、重型车辆通行等。作为首个基于真实场景构建的视听异常检测数据集,MAVAD填补了多模态异常检测数据资源的空白,为弱监督学习范式提供了重要基准,推动了跨模态融合技术在安防、交通管理等实际应用中的发展。
当前挑战
MAVAD数据集致力于解决交通监控场景下的异常检测问题,其核心挑战在于如何有效融合视听双模态特征以提升模型对复杂异常事件的识别鲁棒性。具体而言,领域问题的挑战包括:在动态交通环境中,异常事件往往具有时空稀疏性和多样性,例如突发性障碍物或非常规车辆行为,要求模型具备细粒度的跨模态关联能力。在数据集构建过程中,研究团队面临多重困难:首先,真实场景数据采集需兼顾隐私保护与信息完整性,通过人脸和车牌模糊化实现匿名化处理,但这一过程可能引入视觉信息损失;其次,多传感器数据同步与对齐存在技术瓶颈,尤其在远距离音频采集时,环境噪声易掩盖关键声学线索;此外,数据标注依赖弱监督范式,如何确保异常类别的边界清晰性与标注一致性亦构成显著挑战。
常用场景
经典使用场景
在智能交通监控领域,MAVAD数据集为多模态异常检测研究提供了关键支持。该数据集通过同步采集真实交通场景中的视频与音频数据,涵盖了行人、车辆、自行车等多种交通参与者,以及不同天气与光照条件,为模型训练与评估构建了丰富且贴近现实的基准环境。研究者可借助MAVAD探索视觉与听觉特征的融合机制,提升对交通异常事件的识别精度与鲁棒性。
解决学术问题
MAVAD数据集主要应对视频异常检测中多模态数据缺失的学术挑战。传统异常检测方法多依赖单一视觉信息,难以在复杂场景下准确捕捉非常规事件。该数据集通过提供同步的音频与视频流,使研究者能够深入探究跨模态特征融合的有效途径,例如利用音频线索增强对视觉遮挡或远距离异常事件的感知能力,从而推动弱监督学习、多模态表示学习等前沿方向的发展。
衍生相关工作
基于MAVAD数据集,研究者提出了多种创新的多模态异常检测方法。其中,AVACA框架利用交叉注意力机制融合视觉与音频特征,显著提升了检测性能。该工作启发了后续研究,如探索更高效的跨模态对齐策略、设计轻量化的实时检测模型,以及将类似架构迁移至工业检测、公共场所监控等其他多模态异常识别场景,进一步拓展了音频视觉联合分析的应用边界。
以上内容由遇见数据集搜集并总结生成



