five

TAU Urban Acoustic Scenes 2020 Mobile

收藏
arXiv2024-10-31 更新2024-11-05 收录
下载链接:
http://arxiv.org/abs/2410.23776v1
下载链接
链接失效反馈
官方服务:
资源简介:
TAU Urban Acoustic Scenes 2020 Mobile数据集由SynSense创建,用于DCASE 2020声学场景分类挑战。该数据集包含来自12个欧洲城市的10种不同声学场景的录音,使用四种设备同时录制。主要录音设备为Soundman OKM II Klassik/studio A3电容双耳麦克风与Zoom F8音频记录器,采样率为48kHz,分辨率为24位。数据集分为1秒的片段,包含训练、验证和评估三个部分,总计58920个样本。数据集的创建旨在解决实时能量受限场景下的音频分析问题,特别适用于低功耗音频推理芯片的应用。

TAU Urban Acoustic Scenes 2020 Mobile dataset was created by SynSense for the DCASE 2020 Acoustic Scene Classification Challenge. This dataset contains recordings of 10 distinct acoustic scenes from 12 European cities, captured using four different types of recording devices. The primary recording devices are the Soundman OKM II Klassik/studio A3 capacitive binaural microphone and the Zoom F8 audio recorder, with a sampling rate of 48 kHz and a bit depth of 24 bits. The dataset is partitioned into 1-second audio clips, and comprises three subsets: training, validation, and evaluation, with a total of 58,920 samples. This dataset was developed to address audio analysis challenges in real-time, energy-constrained scenarios, and is particularly well-suited for applications of low-power audio inference chips.
提供机构:
SynSense
创建时间:
2024-10-31
搜集汇总
数据集介绍
main_image_url
构建方式
TAU Urban Acoustic Scenes 2020 Mobile数据集的构建基于DCASE 2020声学场景分类挑战,涵盖了12个欧洲城市的10种不同声学场景。数据集通过四种不同设备同时录制,主要设备A采用Soundman OKM II Klassik/studio A3电容双耳麦克风与Zoom F8音频记录器,采样率为48kHz,分辨率为24位。其他设备包括三星Galaxy S7、iPhone SE和GoPro Hero5 Session。录音时间为2018年5月至11月,涵盖机场、室内购物中心、地铁站等场景。数据集分为训练、验证和评估三部分,分别包含41,360、1,320和16,240个1秒长的音频样本。
特点
该数据集的特点在于其多设备录制和高分辨率音频,确保了数据的多样性和高质量。此外,数据集涵盖了多种城市环境下的声学场景,为声学场景分类提供了丰富的训练和测试数据。数据集的分割设计合理,便于模型训练和验证。同时,数据集的构建考虑了实际应用场景,如低功耗设备的使用,使其在实际应用中具有较高的可行性。
使用方法
使用TAU Urban Acoustic Scenes 2020 Mobile数据集时,首先需根据数据集的分割进行训练、验证和测试。数据集提供了详细的音频预处理方法,如使用Xylo™Audio设备的音频编码硬件进行稀疏事件编码,有助于模型在低功耗设备上的部署。模型训练可采用如SynNet的脉冲神经网络架构,结合Rockpool工具链进行网络定义和训练。最终,模型可在Xylo™Audio 2硬件开发套件上进行部署和性能测试,评估其在实际应用中的功耗和延迟。
背景与挑战
背景概述
TAU Urban Acoustic Scenes 2020 Mobile数据集由Tampere University of Technology于2018年5月至11月期间创建,主要用于DCASE 2020声学场景分类挑战。该数据集收录了来自12个欧洲城市的10种不同声学场景的录音,使用四种不同的设备进行采集,包括专业级和消费级设备。其核心研究问题在于通过多设备采集的音频数据,提升声学场景分类的准确性和鲁棒性。该数据集的发布对声学场景分类领域产生了深远影响,为研究人员提供了一个标准化的基准,促进了相关算法的发展和评估。
当前挑战
TAU Urban Acoustic Scenes 2020 Mobile数据集在构建过程中面临多重挑战。首先,不同设备采集的音频数据在质量和特性上存在显著差异,如何统一这些数据以进行有效分类是一个主要难题。其次,数据集涵盖的声学场景多样且复杂,要求分类模型具备高度的泛化能力。此外,数据集的采集涉及多个城市和多种环境,确保数据的一致性和代表性也是一大挑战。这些挑战不仅影响了数据集的构建,也对后续的模型训练和性能评估提出了高要求。
常用场景
经典使用场景
TAU Urban Acoustic Scenes 2020 Mobile数据集在声学场景分类任务中展现了其经典应用。该数据集通过记录来自12个欧洲城市的10种不同声学场景,为研究者提供了一个丰富的声学环境样本库。其主要应用场景包括城市环境中的声学场景识别,如机场、购物中心、地铁站等,这些场景的音频数据被用于训练和验证声学场景分类模型。通过使用不同的录音设备,数据集还考虑了设备差异对声学特征提取的影响,从而提高了模型的鲁棒性。
实际应用
在实际应用中,TAU Urban Acoustic Scenes 2020 Mobile数据集被广泛用于开发和优化城市声学监测系统。例如,在智能交通管理中,通过识别街道上的交通流量和类型,可以优化交通信号控制,减少拥堵。在公共安全领域,声学场景分类技术可以用于实时监测公共场所的异常声音,如枪声或爆炸声,从而提高应急响应速度。此外,该数据集还支持智能家居和智能办公环境中的声学场景识别,为用户提供更加个性化的音频体验。
衍生相关工作
基于TAU Urban Acoustic Scenes 2020 Mobile数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集开发了低功耗的声学场景分类芯片,如Xylo™Audio,这些芯片能够在能量受限的环境中实时处理音频数据。此外,数据集还激发了对声学场景分类算法的优化研究,特别是在神经网络架构和训练方法上的创新。这些工作不仅提升了声学场景分类的准确性和效率,还推动了声学技术在物联网和边缘计算中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作