DCASE2025Task4Dataset
收藏github2025-04-02 更新2025-04-07 收录
下载链接:
https://github.com/nttcslab/dcase2025_task4_baseline
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由两部分组成:开发数据集和评估数据集。开发数据集包括为DCASE2025挑战任务4新录制的声音事件和房间脉冲响应,以及其他可用数据集中的声音事件、噪声和房间脉冲响应。评估数据集将在稍后阶段发布。
This dataset consists of two parts: the development dataset and the evaluation dataset. The development dataset includes newly recorded sound events and room impulse responses for DCASE2025 Challenge Task 4, as well as sound events, noise, and room impulse responses from other available datasets. The evaluation dataset will be released at a later stage.
创建时间:
2025-03-17
原始信息汇总
DCASE2025挑战赛任务4基线系统数据集概述
数据集基本信息
- 任务名称:DCASE2025 Challenge Task 4: Spatial Semantic Segmentation of Sound Scenes
- 数据集名称:DCASE2025Task4Dataset
- 数据集地址:https://zenodo.org/records/15117227
数据集组成
开发数据集(Development dataset)
-
包含新录制的声学事件和房间脉冲响应
-
整合了其他公开数据集中的声学事件、噪声和房间脉冲响应
-
文件夹结构:
data/dev_set |-- config |-- metadata |-- noise |-- room_ir |-- sound_event
-- test |-- oracle_target-- soundscape
评估数据集(Evaluation dataset)
- 将在后续阶段发布
相关数据集
- Semantic Hearings BinauralCuratedDataset
- EARS数据集
系统架构
- 音频标记模型(AT):
- 预训练特征提取骨干网络(M2D)
- 头部层
- 源分离模型(SS):
- 两种变体:ResUNet和ResUNetK
性能指标
- Class-aware Signal-to-Distortion Ratio (CA-SDRi):
- ResUNetK: 11.088
- ResUNet: 11.032
- 标签预测准确率:59.80
引用文献
- Nguyen, B.T., et al. "Baseline Systems and Evaluation Metrics for Spatial Semantic Segmentation of Sound Scenes." arXiv preprint arXiv:2503.22088, 2025.
- Yasuda, M., et al. "Description and discussion on DCASE 2025 challenge task 4: Spatial Semantic Segmentation of Sound Scenes." arXiv preprint arXiv:xxxx.xxxx, 2025.
搜集汇总
数据集介绍

构建方式
DCASE2025Task4Dataset的构建融合了多源数据整合与专业声学设计理念,其开发集通过精心采集的新型声学事件与房间脉冲响应数据,辅以来自FSD50K、EARS等公开数据集的补充素材,构建了层次化的训练体系。数据架构采用模块化设计,包含配置参数、元数据、环境噪声、脉冲响应和声学事件五类核心文件夹,通过SpatialScaper工具实现三维声场的物理精确模拟,测试集则预设了混合音景与目标源分离的评估基准。
特点
该数据集在声学场景空间语义分割领域具有显著优势,其多模态数据涵盖训练集、验证集和测试集的完整评估链条,支持音频标记与源分离双模型协同训练。独特的房间脉冲响应库可还原真实声学环境的空间特性,而精细标注的声学事件时间-空间标签为三维声场理解提供了语义基础。基准系统在CA-SDRi和标签预测准确率指标上分别达到11.088dB和59.80%,体现了数据在复杂声学场景建模方面的可靠性。
使用方法
使用流程遵循标准化科研范式,需通过conda或pip安装指定依赖环境后,从Zenodo平台获取开发集数据并按预设目录结构部署。模型训练采用两阶段策略:音频标记模型先微调分类头再优化M2D骨干网络,分离模型则提供ResUNet与ResUNetK两种架构选择。评估阶段通过配置文件灵活加载预训练模型,支持CA-SDRi指标计算与波形重构功能,用户可通过修改eval_configs目录下的参数适配自定义模型。
背景与挑战
背景概述
DCASE2025Task4Dataset是由NTTC实验室等机构为2025年DCASE挑战赛任务4开发的专用数据集,旨在推动声学场景空间语义分割领域的研究。该数据集整合了多源声学数据,包括新录制的声学事件、房间脉冲响应以及来自FSD50K、EARS等公开数据集的补充素材,构建了具有空间属性的复杂声学场景。数据集采用两阶段发布模式,当前开放的开发集包含训练、验证和测试子集,通过精细的声学事件标注和空间信息编码,为声源定位与分离任务提供了重要基准。
当前挑战
该数据集面临的核心领域挑战在于如何实现复杂声学场景中多声源的空间语义解耦,这要求模型同时解决声学事件分类、声源定位和信号分离三个子任务的耦合问题。在构建过程中,研究团队需克服多源数据格式标准化、空间声学参数对齐、以及真实场景与仿真数据融合等技术难点。此外,声学事件的时间同步性保持、跨数据集标注体系统一、以及动态声场环境下的评估指标设计,均为该数据集构建过程中的关键挑战。
常用场景
经典使用场景
在声学场景分析领域,DCASE2025Task4Dataset为空间语义分割任务提供了标准化的评估基准。该数据集通过整合多源声音事件、噪声及房间脉冲响应,构建了复杂的声学环境模拟场景。研究者可利用其开发音频标记和源分离模型,实现对混合声景中特定声源的空间定位与语义分类,为智能听觉系统提供关键技术支撑。
实际应用
在智能家居、自动驾驶等现实场景中,该数据集训练的模型可精准识别环境声源方位与语义。例如车载系统能区分警笛声方位实现紧急避让,智能音箱可依据声源定位调整波束成形。其脉冲响应库更助力虚拟现实领域构建逼真的3D音效,为空间音频技术提供物理声学基础。
衍生相关工作
基于该数据集衍生的经典工作包括:字节跳动的USS框架改进了ResUNet在声源分离中的表现,NTT实验室的M2D特征提取器成为音频标记任务的基准模型。伊朗罗马大学的SpatialScaper工具包则被广泛用于声景数据增强,这些成果共同推动了计算听觉场景分析领域的范式革新。
以上内容由遇见数据集搜集并总结生成



