DCASE2025 Task 4 Dataset

Name: DCASE2025 Task 4 Dataset
Creator: NTT Corporation, Japan
Published: 2025-06-12 21:07:54
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://zenodo.org/records/15553984

下载链接

链接失效反馈

官方服务：

资源简介：

DCASE2025 Task 4 数据集是为DCASE 2025挑战赛中的空间语义分割声音场景（S5）任务而创建的，旨在从多通道空间输入信号中检测和分离声音事件。该数据集包括孤立的声音事件、房间脉冲响应、环境噪声和干扰声音，所有这些数据都是为新任务而重新录制的。它用于训练和评估沉浸式通信技术系统，包括扩展现实（XR）。数据集共包含18个类别的声音事件，每个音频片段长度固定为10秒，包含1到3个同时发生的声音事件。数据集的开发集包含训练、验证和测试三个子集，而评估集则是全新录制的，不包含任何公开可用的数据。

The DCASE2025 Task 4 Dataset was created for the Spatial Semantic Segmentation of Sound Scenes (S5) task in the DCASE 2025 Challenge, aiming to detect and separate sound events from multi-channel spatial input signals. This dataset encompasses isolated sound events, room impulse responses, ambient noise and interfering sounds, all of which were re-recorded specifically for this new task. It is used for training and evaluating immersive communication technology systems, including extended reality (XR). The dataset consists of 18 categories of sound events, with each audio clip having a fixed duration of 10 seconds and containing 1 to 3 simultaneously occurring sound events. The development set includes three subsets: training, validation and test, while the evaluation set is newly recorded and does not contain any publicly available data.

提供机构：

NTT Corporation, Japan

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

DCASE2025 Task 4 Dataset的构建采用了多模态数据融合策略，结合了全新录制的声学素材与精选公开数据集。核心数据包含18类目标声音事件的单通道干信号，这些信号在消声室中通过多麦克风阵列采集，确保声学纯净度。空间脉冲响应数据通过一阶Ambisonics麦克风在三类声学特性各异的房间中系统化采集，覆盖360度方位角与多仰角配置。环境噪声与干扰声则从FOA-MEIR等公开数据集筛选，最终通过改进版SpatialScaper音频模拟器合成32kHz/16bit的多通道混合信号，每段10秒含1-3个目标事件，并严格控制信噪比与空间一致性。

使用方法

该数据集专为立体声场景语义分割任务设计，使用者需构建能同时处理声音事件检测、分类与空间分离的端到端系统。基准流程建议采用两阶段架构：首先通过掩码建模音频标注模型进行事件分类，继而采用基于ResUNet的分离网络提取目标声源。评估时采用类感知信噪比改进值(CA-SDRi)作为核心指标，其独特之处在于将波形质量与分类准确度联合量化。配套代码库提供完整的训练管道与基线模型，支持开发者使用PyTorch框架进行混合信号生成、模型训练及多维指标计算，特别适合XR环境下的沉浸式通信技术研发。

背景与挑战

背景概述

DCASE2025 Task 4 Dataset由NTT Corporation、Université de Lorraine及东京都立大学等机构联合开发，旨在推动声学场景与事件检测领域的研究。该数据集专注于空间语义分割技术（S5），通过多通道输入信号实现声音事件的检测与分离，为沉浸式通信技术提供基础支持。数据集的核心研究问题在于如何利用方向性信息和事件类别的语义先验知识，从复杂的声学场景中分离出具有6自由度（6DoF）信息的干声对象信号。该数据集的发布为声学事件检测与分离领域提供了新的基准，推动了相关算法的发展。

当前挑战

DCASE2025 Task 4 Dataset面临的挑战主要包括两方面：一是领域问题的挑战，即如何从多通道空间输入信号中准确检测和分离混合的声学事件，尤其是在存在背景噪声和干扰声音的情况下；二是构建过程中的挑战，包括如何获取高质量的孤立目标声学事件、多通道房间脉冲响应（RIR）以及环境噪声数据，并确保数据集的多样性和代表性。此外，合成训练与评估混合物时需平衡声学事件的时空分布与信噪比，这对数据集的实用性和算法的泛化能力提出了更高要求。

常用场景

经典使用场景

DCASE2025 Task 4 Dataset在声学场景分析领域具有重要价值，尤其在多通道空间信号处理方面表现突出。该数据集广泛应用于声学事件检测与分离任务，为研究者提供了包含18种目标声学事件的合成混合信号，每个信号最多包含三个同时发生的声学事件。通过模拟真实环境中的声学场景，该数据集为开发先进的声学信号处理算法提供了标准化的测试平台。

解决学术问题

该数据集有效解决了声学场景语义分割中的关键科学问题，特别是针对多通道输入信号中混合声学事件的检测与分离难题。通过提供包含空间信息的合成信号，研究者能够深入探索声学事件的方向性特征与语义信息的关联。数据集的设计克服了传统单通道信号在空间信息表征上的局限性，为沉浸式通信技术的研究奠定了数据基础。

实际应用

在实际应用层面，该数据集支撑的技术可广泛应用于智能家居系统、虚拟现实音频处理和远程会议系统等领域。通过准确分离和识别环境中的声学事件，系统能够实现更精准的声学场景理解。例如在智能家居场景中，系统可以区分门铃声、脚步声等不同事件，为个性化服务提供支持。

数据集最近研究