DESED dataset, MAESTRO Real dataset

Name: DESED dataset, MAESTRO Real dataset
Creator: 新加坡Fortemedia公司，西北工业大学环境声音感知联合实验室
Published: 2024-06-29 11:11:00
License: 暂无描述

arXiv2024-06-29 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.00291v1

下载链接

链接失效反馈

官方服务：

资源简介：

DCASE 2024挑战赛任务4涉及两个数据集：DESED和MAESTRO Real。DESED数据集包含10秒的家庭环境录音或合成音频，标注了10类声音事件。MAESTRO Real数据集则包含长格式真实世界录音，标注了17类声音事件，其中11类用于评估。这两个数据集的创建旨在通过不同的标注粒度和来源，提高声音事件检测的性能和泛化能力。

Task 4 of the DCASE 2024 Challenge encompasses two datasets: DESED and MAESTRO Real. The DESED dataset comprises 10-second household environmental or synthetic audio recordings annotated with 10 sound event classes. The MAESTRO Real dataset, by contrast, includes long-form real-world audio recordings annotated with 17 sound event classes, 11 of which are utilized for evaluation. The development of these two datasets is intended to enhance the performance and generalization ability of sound event detection systems by leveraging different annotation granularities and data sources.

提供机构：

新加坡Fortemedia公司，西北工业大学环境声音感知联合实验室

创建时间：

2024-06-29

搜集汇总

数据集介绍

构建方式

DESED dataset与MAESTRO Real dataset的构建融合了真实世界录音与合成声音场景，其中DESED包含家庭环境中的音频片段，MAESTRO Real则聚焦于真实世界长音频记录。两数据集均涵盖多种声音事件类别，并采用不同的标注方式，以适应多样化的训练需求。

特点

该数据集融合了不同来源的数据，具有异构性，且标注方式多样，包括软标签与硬标签，为模型训练提供了丰富的信息。此外，数据集包含多种声音事件类别，涵盖了日常生活中的多种场景。

使用方法

数据集适用于声音事件检测任务，可通过深度学习模型进行训练。在训练过程中，需结合数据集的特点，采用适当的特征提取、模型架构和训练策略，以实现良好的性能。在评估阶段，可使用多种评价指标，如PSDS和mPAUC，来评估模型的性能。

背景与挑战

背景概述

在声学场景和事件的检测与分类领域，DESED数据集和MAESTRO Real数据集的创建为研究人员提供了宝贵的资源。DESED数据集由Yang Xiao、Han Yin、Jisheng Bai和Rohan Kumar Das等研究人员于2019年发布，包含了10秒长的音频片段，这些片段要么是在家庭环境中录制的，要么是合成的以模拟家庭环境。数据集包括10个类别的标注声音事件：闹钟铃声、搅拌机、猫、盘子、狗、电动剃须刀/牙刷、煎炒、流水声、语音和吸尘器。MAESTRO Real数据集则是在2023年的DCASE挑战赛Task 4B中使用的，它包含了来自17个类别的多个时间上强标注的事件，这些事件带有软标签。两个数据集的整合为2024年的DCASE挑战赛Task 4提供了新的研究方向，旨在探索如何利用来自不同领域的异构训练数据集来提高声音事件检测的性能。

当前挑战

DCASE 2024 Task 4的主要挑战是如何结合来自不同领域的异构训练数据集，这些数据集具有不同的标注。深度神经网络难以在不同领域之间进行泛化，导致在现实世界场景中的表现不佳。因此，域泛化（DG）成为了计算机视觉、音频处理和自然语言处理等领域中的一个重要研究课题。本挑战赛中的另一个挑战是在训练过程中处理可能缺失的目标标签，并在评估时不知道音频片段来源的情况下进行检测。为了应对这些挑战，研究人员提出了使用域泛化的方法，并提出了多种策略，如应用MixStyle到频率维度以适应不同域的mel-spectrograms，考虑针对每个数据集对应类别的训练损失，以及使用声音事件边界框方法进行后处理。这些方法在DCASE 2024挑战赛的验证数据集和公共评估数据集上显示出优越的性能。

常用场景

经典使用场景

在声学场景和事件检测领域，DESED dataset和MAESTRO Real dataset是两个重要的数据集。它们被广泛应用于声音事件检测（SED）任务中，旨在识别和分类声音事件，并准确标注其时间边界。这些数据集为研究人员提供了丰富的音频数据，包括家庭环境中的真实录音和合成的声音场景，以及公共领域中的多种声音事件。这使得它们成为SED任务的标准数据集，用于评估不同算法的性能和鲁棒性。

解决学术问题

DESED dataset和MAESTRO Real dataset解决了声音事件检测中的多个学术问题。首先，它们为研究人员提供了大量标注数据，用于训练和评估SED算法。其次，这些数据集涵盖了多种声音事件，包括家庭环境中的日常声音和公共领域中的声音事件，有助于研究算法在不同场景下的表现。此外，这些数据集还提供了带有时间戳的标注数据，使得研究人员能够研究算法对事件时间定位的准确性。最后，这些数据集的存在促进了SED领域的研究发展，推动了相关算法的进步。

衍生相关工作

DESED dataset和MAESTRO Real dataset的发布促进了SED领域的研究，衍生出许多相关的工作。例如，一些研究人员利用这些数据集开发了基于深度学习的SED算法，取得了显著的性能提升。此外，一些研究还探索了如何利用这些数据集进行无监督学习和半监督学习，以减少对大量标注数据的依赖。此外，一些研究还探讨了如何利用这些数据集进行跨领域学习，以提高算法在不同场景下的鲁棒性。这些衍生出的相关工作进一步推动了SED领域的发展，并为未来的研究提供了重要的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集