five

MVD, MVDA

收藏
arXiv2023-09-07 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2309.03544v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究介绍了两个用于声学车辆类型分类的新数据集:MVD(移动车辆检测)和MVDA(移动车辆检测增强版)。MVD包含4229个音频样本,涵盖卡车、汽车、摩托车和无车辆类别,记录于印度德里-NCR地区的四个不同城市地点。MVDA是MVD的扩展版本,包含16,916个样本,通过声音变异和音频增强提高模型的泛化能力。这些数据集旨在支持声学交通监控算法的发展,解决交通管理和监控中的实际问题。

This study introduces two novel datasets for acoustic vehicle type classification: MVD (Mobile Vehicle Detection) and MVDA (Mobile Vehicle Detection Augmented). MVD consists of 4,229 audio samples covering four categories: truck, car, motorcycle, and no vehicle, which were recorded at four distinct urban locations in the Delhi-NCR region of India. MVDA, an extended version of MVD, contains 16,916 audio samples and enhances model generalization through sound variation and audio augmentation. These datasets are designed to support the development of acoustic traffic monitoring algorithms and address practical issues in traffic management and monitoring.
提供机构:
国防研发组织
创建时间:
2023-09-07
搜集汇总
数据集介绍
main_image_url
构建方式
在城市交通日益拥挤的背景下,声学交通监控因其成本低廉且不受光照限制而备受关注。为此,MVD与MVDA数据集应运而生,旨在为声学车辆类型分类提供标准化资源。MVD数据集包含4229段时长3秒的音频样本,采样率为22.05 kHz,涵盖卡车、汽车、摩托车及无车辆四类,所有录音均于印度德里国家首都辖区四个不同城市地点,利用四枚高质量MEMS单声道麦克风采集,并兼顾干湿路面与风、雨、行人等多样环境噪声。MVDA作为MVD的增强版本,通过随机增益、噪声注入和时间拉伸三种数据增强技术,将样本量扩充至16916段,以提升模型泛化能力。
特点
该数据集的核心特点在于其现实复杂性与平衡性。MVD中各类别样本数量接近(汽车1005、卡车1077、摩托车1122、无车辆1025),有效避免了类别失衡问题。录音场景涵盖多变的车辆速度、道路条件及丰富的背景噪声,真实模拟了城市声学环境的多样性。MVDA则通过精心调参的增强手段(如增益因子0.1至2、噪声率0.001至0.003、拉伸因子0.8至1.5),模拟了车辆距离、环境干扰及速度变化对音频的影响,显著增强了数据集的鲁棒性。此外,数据集与已有的IDMT-Traffic基准形成互补,为声学交通监控研究提供了更全面的评测平台。
使用方法
该数据集适用于基于深度学习的声学车辆分类任务。使用者可提取局部特征(如梅尔频谱图、MFCC、GFCC)与全局统计特征(如峰度、偏度、标准差等13维向量),并将其输入至论文提出的多输入神经网络架构中。局部特征经一维卷积层处理,全局特征经全连接层并行处理,随后拼接并经由Softmax层输出分类结果。数据集已公开于GitHub,研究者可直接下载使用,并参照论文中的5折交叉验证设置进行模型训练与评估。此外,论文还提供了部署于Android平台的应用程序,支持实时录音或加载音频文件,通过云端API调用模型进行预测,便于实际场景测试。
背景与挑战
背景概述
随着城市化进程的加速,交通拥堵与道路安全问题日益凸显,智能交通监控成为智慧城市建设的核心环节。声学交通监控(ATM)凭借其计算高效、不受光照条件影响、易于部署及保护隐私等优势,逐渐成为视觉监控的可行替代方案。然而,声学车辆类型分类面临诸多技术瓶颈,其中高质量、平衡且公开的数据集匮乏是制约研究进展的关键因素。为此,Mohd Ashhad及其合作者(来自印度贾米亚·哈姆达德大学、国防研究与发展组织等机构)于2023年提出了MVD与MVDA两个开放数据集。MVD包含4229个音频样本,涵盖卡车、轿车、摩托车及无车辆四类,并收录了多种环境噪声;MVDA作为数据增强版本,包含16916个样本,旨在提升模型的泛化能力。该数据集填补了声学交通监控领域的空白,为算法开发与性能评估提供了标准化基准,推动了该领域从实验室研究向实际部署的跨越。
当前挑战
声学车辆类型分类面临多重挑战。首先,车辆声音本身是发动机噪声、轮胎摩擦声、路面条件及环境噪声(如风声、雨声、喇叭声)的复杂混合体,信噪比低且类间差异细微,导致特征提取与分类难度极大。其次,现有公开数据集规模小、类别不均衡、场景单一,难以支撑深度学习模型的训练与泛化,迫使研究者自行采集数据,阻碍了算法比较与验证。在数据集构建过程中,MVD与MVDA需在多变城市环境中采集高质量录音,并应对湿滑路面、不同车速及突发噪声等干扰因素;同时,设计合理的数据增强策略(如随机增益、噪声注入、时间拉伸)以模拟真实场景,平衡增强幅度与信号保真度,避免引入伪影。此外,模型需在保持高精度的同时降低参数量,以适应边缘设备部署,这对特征选择与网络架构提出了严苛要求。
常用场景
经典使用场景
在声学交通监控领域,MVD与MVDA数据集为车辆类型识别提供了宝贵的音频资源。这两个数据集收录了卡车、轿车、摩托车及无车辆背景噪声的四类录音,涵盖湿滑与干燥路面、多样环境噪声等复杂场景,尤其适合用于基于声学信号的车辆检测与分类任务。研究者可借助这些数据,开发并验证利用倒谱与频谱特征的轻量化分类模型,从而在真实交通环境中实现高效、鲁棒的车辆类型判别。
解决学术问题
该数据集解决了声学交通监控中缺乏大规模、高质量、类别均衡开放数据集的核心瓶颈。此前,研究者常需自行采集样本,导致算法验证与横向对比困难。MVD与MVDA的提出,填补了这一空白,使学术界能够系统性地探索车辆声学特征提取与分类方法,推动基于声音的交通监控研究从零散实验走向标准化评估,显著提升了该领域的可复现性与可比性。
衍生相关工作
基于MVD与MVDA数据集,衍生出一系列经典工作,包括结合全局与局部音频特征的多输入神经网络架构,以及利用伽马通频率倒谱系数(GFCC)与统计特征的高效分类方法。这些工作不仅在MVD与MVDA上取得91.98%和96.66%的准确率,还在IDMT-Traffic等公开基准上超越先前基线,同时将可训练参数减少95%以上,为资源受限的边缘设备部署提供了可行路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作