PSELDNets
收藏arXiv2024-11-10 更新2024-11-13 收录
下载链接:
https://github.com/Jinbo-Hu/PSELDNets
下载链接
链接失效反馈官方服务:
资源简介:
PSELDNets是一个大规模合成数据集,由中国科学院声学研究所噪声与振动重点实验室创建,用于声音事件定位与检测(SELD)任务。该数据集包含1167小时的音频片段,涵盖170个声音类别,通过将声音事件与模拟的空间房间脉冲响应(SRIRs)进行卷积生成。数据集的创建过程涉及高质量声音事件片段和SRIRs的获取,以及复杂的卷积计算。PSELDNets主要应用于机器人听觉、音频监控和智能家居环境等领域,旨在解决声音事件的分类、起止时间和方向估计问题。
PSELDNets is a large-scale synthetic dataset developed by the Key Laboratory of Noise and Vibration, Institute of Acoustics, Chinese Academy of Sciences, for the Sound Event Localization and Detection (SELD) task. This dataset contains 1167 hours of audio clips covering 170 sound categories, and is generated by convolving sound events with simulated Spatial Room Impulse Responses (SRIRs). The dataset creation process involves the acquisition of high-quality sound event clips and SRIRs, as well as complex convolution calculations. PSELDNets is primarily applied in fields such as robotic audition, audio surveillance and smart home environments, aiming to address the challenges of sound event classification, onset/offset time estimation and direction estimation.
提供机构:
中国科学院声学研究所噪声与振动重点实验室
创建时间:
2024-11-10
搜集汇总
数据集介绍

构建方式
PSELDNets数据集通过将FSD50K中的声音事件片段与模拟的空间房间脉冲响应(SRIRs)进行卷积,生成了大规模的合成数据集。这些合成数据集包含了1,167小时的音频片段,涵盖了170种声音类别。数据集的构建过程中,采用了高质量的声音事件片段和SRIRs,确保了空间声音事件记录的准确模拟。此外,数据集的生成还考虑了声音事件的单源性、强标签和高标签质量,以确保模型的可靠性和性能。
特点
PSELDNets数据集的主要特点在于其大规模的合成性质和丰富的声音类别。数据集包含了1,167小时的音频数据,涵盖了170种声音类别,为声音事件定位和检测(SELD)任务提供了广泛的应用场景。此外,数据集的合成过程中采用了模拟的空间房间脉冲响应,确保了声音事件在空间和时间域中的准确表示。这些特点使得PSELDNets成为开发通用SELD模型的理想选择。
使用方法
PSELDNets数据集可用于训练和验证声音事件定位和检测(SELD)模型。用户可以通过卷积神经网络(CNN)、注意力机制网络(PaSST)和分层令牌语义音频变换器(HTS-AT)等预训练模型进行迁移学习。在低资源数据情况下,用户可以采用数据高效的微调方法(AdapterBit),通过仅微调少量参数来适应特定场景。此外,数据集还可用于评估模型在不同公开数据集和自收集音频记录上的性能,验证模型的泛化能力和适应性。
背景与挑战
背景概述
PSELDNets数据集由Jinbo Hu等人于2024年创建,旨在解决声音事件定位与检测(SELD)领域的核心问题。该数据集基于大规模合成数据构建,包含1,167小时的音频剪辑,涵盖170种声音类别。主要研究人员来自中国科学院声学研究所、西安交通利物浦大学、奥卢大学和萨里大学等机构。PSELDNets的提出标志着在声音事件分类(SEC)领域取得显著进展后,向通用SELD模型发展的关键一步。通过利用预训练的SEC模型,PSELDNets展示了在低资源数据情况下的高效适应性,为SELD任务提供了新的解决方案。
当前挑战
PSELDNets在构建过程中面临的主要挑战包括:1) 合成数据的真实性和多样性,确保合成数据能够有效模拟真实环境中的声音事件;2) 数据标注的准确性,特别是在弱标签和强标签之间的平衡,以提高模型的可靠性和泛化能力;3) 模型在不同环境下的适应性,尤其是在未见过的声学环境中,模型的性能可能会显著下降。此外,PSELDNets在应用中需解决多通道音频输入的需求,以及在低资源数据情况下的高效微调问题,这要求模型在保持泛化能力的同时,能够快速适应特定任务。
常用场景
经典使用场景
PSELDNets数据集在声事件定位与检测(SELD)领域中被广泛应用于开发通用模型。通过利用预训练的声事件分类(SEC)模型,PSELDNets在大规模合成数据集上进行训练,这些数据集包含1,167小时的音频片段和170个声类。这些模型被转移到下游SELD任务中,特别是在低资源数据情况下,通过数据高效微调方法AdapterBit进行适应。PSELDNets在合成测试集上的评估表现令人满意,并在多个公开数据集和自收集音频记录中展示了超越现有最先进系统的性能。
实际应用
PSELDNets数据集在实际应用中具有广泛的前景。例如,在机器人听觉、音频监控和智能家居环境中,SELD系统能够识别和定位各种声源,这对于提高系统的智能化和自动化水平至关重要。此外,PSELDNets在低资源环境中的高效适应能力,使其在资源受限的实际场景中具有显著优势,如在偏远地区或资源匮乏的环境中部署声事件检测系统。通过AdapterBit方法,PSELDNets能够在仅使用单声道音频的情况下实现高效的声事件定位与检测,进一步扩展了其应用范围。
衍生相关工作
PSELDNets数据集的提出和应用催生了一系列相关研究工作。首先,AdapterBit方法作为一种数据高效微调技术,被广泛应用于其他音频处理任务中,如自动语音识别和声纹识别,展示了其在不同领域中的通用性和有效性。其次,PSELDNets的成功应用激发了对大规模合成数据集在音频处理任务中作用的研究,推动了合成数据生成技术和数据增强方法的发展。此外,PSELDNets在多个公开数据集上的优异表现,促进了SELD领域内对模型评估和基准测试方法的进一步探讨和改进。
以上内容由遇见数据集搜集并总结生成



