TAU-NIGENS Spatial Sound Events 2020

Name: TAU-NIGENS Spatial Sound Events 2020
Creator: 坦佩雷大学，芬兰
Published: 2020-06-27 19:43:22
License: 暂无描述

arXiv2020-06-27 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/3740236

下载链接

链接失效反馈

官方服务：

资源简介：

TAU-NIGENS Spatial Sound Events 2020数据集由芬兰坦佩雷大学的音频与语音处理研究组创建，旨在为DCASE 2020挑战赛中的声音事件定位与检测（SELD）任务提供训练和测试数据。该数据集包含714个声音事件样本，分布在14个类别中，如警报、婴儿哭声、撞击声等。数据集通过真实的房间脉冲响应（RIRs）捕捉，模拟了多种声学条件和动态条件，如移动声源。创建过程中，使用了真实的房间脉冲响应和环境噪声，以增强数据集的真实性。该数据集适用于机器听觉领域的多种应用，如声学监控、机器人导航和智能人机交互，旨在解决声音事件的时空特性描述问题。

The TAU-NIGENS Spatial Sound Events 2020 dataset was developed by the Audio and Speech Processing Research Group at Tampere University, Finland, to provide training and test data for the Sound Event Localization and Detection (SELD) task of the DCASE 2020 Challenge. This dataset comprises 714 sound event samples spanning 14 categories, including alarms, baby cries, impact sounds, and more. Captured using real room impulse responses (RIRs), the dataset simulates a wide range of acoustic and dynamic conditions, such as moving sound sources. Real room impulse responses and environmental noise were incorporated during the dataset's development to enhance its realism. This dataset supports various applications in the machine hearing domain, including acoustic surveillance, robot navigation, and intelligent human-computer interaction, and aims to tackle the challenge of describing the spatiotemporal properties of sound events.

提供机构：

坦佩雷大学，芬兰

创建时间：

2020-06-03

搜集汇总

数据集介绍

构建方式

在声学事件定位与检测领域，构建具有真实声学特性的数据集对算法性能评估至关重要。TAU-NIGENS Spatial Sound Events 2020数据集的构建采用了创新的动态声场合成方法。首先，研究团队在13个室内环境中，通过缓慢移动的声源和32通道球形麦克风阵列，连续采集了房间脉冲响应轨迹，从而覆盖了广泛的空间位置和声学条件。随后，从NIGENS通用声学事件数据库中选取14类声学事件样本，结合提取的脉冲响应，采用时变卷积技术合成静态或动态的空间化声学事件。最后，通过添加实地录制的环境噪声，并调整信噪比在30dB至6dB之间，生成了包含多声源重叠的1分钟场景录音，确保了数据的高真实性和挑战性。

使用方法

为促进声学事件定位与检测研究的可复现性与公平比较，该数据集配套了明确的使用框架。数据集划分为开发集与评估集，其中开发集进一步细分为训练、验证和测试子集。研究者需在训练集上优化模型参数，利用验证集进行早期停止等策略选择最佳模型，最终在未见过的测试集上报告性能。官方提供了一种基于卷积循环神经网络的基线方法，其输入特征针对两种音频格式进行了定制化设计，例如为FOA格式提取声强向量，为MIC格式提取广义互相关相位变换特征。性能评估采用全新的联合度量标准，包括位置感知检测的F分数和错误率，以及类别感知定位的定位误差和召回率，从而全面衡量系统在时空维度上的综合表现。

背景与挑战

背景概述

TAU-NIGENS Spatial Sound Events 2020 数据集由芬兰坦佩雷大学音频与语音处理研究团队于2020年发布，旨在为声学事件定位与检测任务提供复杂且逼真的训练与评估资源。该数据集构建于DCASE 2019挑战赛的基础上，核心研究问题聚焦于在混响环境中实现动态声源的时空联合表征，涵盖声源类别识别、时间活动检测及空间轨迹估计。通过引入真实测量的房间脉冲响应与移动声源合成技术，该数据集显著提升了声学场景的多样性与动态性，推动了机器听觉领域在智能监控、机器人导航等应用中的算法进步。

当前挑战

该数据集致力于解决声学事件定位与检测领域的核心挑战，即在复杂混响与动态声源条件下实现高精度的时空联合建模。具体构建挑战包括：声源空间轨迹的精确标注需克服视频与音频坐标系的对齐误差，为此团队开发了基于声学信号的自适应方向估计算法；动态声源合成需模拟连续运动中的混响变化，采用了时变卷积与交叉渐变策略以保持声学连续性；此外，数据集的多样性提升依赖于在13个室内环境中捕获脉冲响应，涉及不同几何形状与声学特性的房间，增加了数据采集与处理的复杂度。

常用场景

经典使用场景

在声学场景分析领域，TAU-NIGENS Spatial Sound Events 2020数据集为声音事件定位与检测任务提供了关键支持。该数据集通过真实房间脉冲响应合成动态声学场景，模拟移动声源在混响环境中的空间轨迹，成为评估和训练SELD系统的基准工具。其经典应用场景包括在DCASE挑战赛中，作为参赛者开发算法的统一测试平台，推动声音事件时空表征技术的进步。

解决学术问题

该数据集有效解决了声音事件定位与检测领域中的若干核心学术问题。传统方法常将声音事件检测与定位视为独立任务，缺乏对时空联合建模的考量。TAU-NIGENS 2020通过引入动态声源和复杂混响条件，促使研究者开发端到端的神经网络架构，实现声音类别识别、时间活动检测与空间方向估计的同步优化。其意义在于推动了联合度量标准的发展，使学术社区能够更全面地评估系统在真实环境中的综合性能。

实际应用

在实际应用层面，该数据集支撑的技术在智能机器听觉系统中展现出广泛前景。基于其训练的模型可应用于声学监控场景，实时检测异常声音并定位来源，提升安防系统的响应精度。在机器人导航领域，系统能够通过声音线索感知环境动态，辅助避障与路径规划。此外，沉浸式交互服务如增强现实音频，也可借助数据集的动态空间声场合成技术，实现更逼真的三维音效渲染。

数据集最近研究