Fhrozen/tau_srir_db

Name: Fhrozen/tau_srir_db
Creator: Fhrozen
Published: 2022-12-03 03:27:05
License: 暂无描述

Hugging Face2022-12-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Fhrozen/tau_srir_db

下载链接

链接失效反馈

官方服务：

资源简介：

TAU空间房间脉冲响应数据库（TAU-SRIR DB）包含在芬兰坦佩雷大学多个空间中捕获的空间房间脉冲响应（SRIRs），用于在固定接收位置和多个源位置进行记录，并包括在同一记录点捕获的空间环境噪声的单独记录。数据集旨在模拟空间多通道录音，以评估和/或训练在现实混响条件下的多通道处理算法。数据集的特点包括高分辨率多通道格式（32通道）、密集间隔的SRIRs、多个源距离、方位角和高度，以及多个房间的录音。数据集还提供了详细的记录格式、场景生成器和数据集结构信息。

提供机构：

Fhrozen

原始信息汇总

TAU Spatial Room Impulse Response Database (TAU-SRIR DB)

描述

TAU Spatial Room Impulse Response Database (TAU-SRIR DB) 包含在芬兰坦佩雷大学（TAU）各个空间中捕获的空间房间脉冲响应（SRIRs），固定接收器位置和每个房间的多个源位置，以及在同一记录点捕获的独立空间环境噪声记录。该数据集旨在用于模拟空间多通道录音，以评估和/或训练多通道处理算法在真实混响条件和多个房间中的应用。该数据库的主要特点包括：

以高分辨率多通道格式（32通道）捕获，可以从中导出多种更有限的应用特定格式（例如四面体阵列、圆形阵列、一阶Ambisonics、高阶Ambisonics、双耳）。
沿测量轨迹提取密集间隔的SRIRs，允许模拟移动源场景。
每个房间的多个源距离、方位角和仰角，允许模拟多源方法的复杂配置。
多个房间，允许在各种声学条件下评估方法，并训练旨在泛化到不同房间的方法。

数据收集

RIRs由TAU的员工在2017年12月至2018年6月以及2019年11月至2020年1月期间收集。数据收集得到了欧洲研究委员会的资助，资助协议为637422 EVERYSOUND。

数据集目标

该数据集可用于生成多通道或单声道混合物，以在真实混响条件下测试或训练方法，适用于多通道语音增强、声场景分析和机器听觉等领域。特别适合以下应用场景：

多房间混响条件下的单声道和多通道混响单源或多源语音，
多房间混响条件下的单声道和多通道多音源声事件，
多房间混响条件下的静态或动态场景中的单源和多源定位，
多房间混响条件下的静态或动态场景中的单源和多源跟踪，
多房间混响条件下的静态或动态场景中的声事件定位和检测。

规格

SRIRs使用Eigenmike球形麦克风阵列捕获。使用Genelec G Three扬声器播放最大长度序列（MLS）。SRIRs在STFT域中通过已知测量信号（MLS）和远场记录之间的最小二乘回归独立于每个频率获得。目前版本的SRIRs和环境噪声被下采样到24kHz以提高紧凑性。

目前发布的SRIR集在芬兰坦佩雷大学赫尔文塔校区内的九个不同室内位置记录。此外，在相同位置使用相同的IR记录设置收集了30分钟的背景噪声记录。SRIR方向和距离因房间而异。可能的方位角范围为$phiin[-180,180)$，而仰角范围大约在$ hetain[-45,45]$度之间。

房间列表

地下炸弹掩体中的大型开放空间，塑料涂层地板和岩石墙。通风噪声。
大型开放健身房空间。邻近房间使用健身器材的人群氛围。
小教室（PB132），小组工作桌和地毯地板。通风噪声。
会议室（PC226），硬地板和部分玻璃墙。通风噪声。
讲堂（SA203），倾斜地板和成排的桌子。通风噪声。
小教室（SC203），小组工作桌和地毯地板。通风噪声。
大教室（SE203），硬地板和成排的桌子。通风噪声。
讲堂（TB103），倾斜地板和成排的桌子。通风噪声。
会议室（TC352），硬地板和部分玻璃墙。通风噪声。

测量轨迹

测量轨迹按组组织，每组由地板上特定距离（范围）的圆形或线性轨迹指定。对于圆形轨迹，测量了两个范围，一个“近”和一个“远”，除了房间TC352，其中相同的范围测量了两次，但家具配置和门的状态不同。对于线性轨迹，也测量了两个范围，“近”和“远”，但在阵列的两侧，结果是4个独特的轨迹组，除了房间SA203，其中测量了3个范围，结果是6个轨迹组。线性轨迹组总是在同一个房间内平行。

每个轨迹组有多个测量轨迹，遵循相同的地面路径，但源在不同的高度。SRIRs从沿这些轨迹缓慢移动的源的噪声记录中提取，大约每隔1度从麦克风的角度间隔提取。这种提取方案比沿路径（例如每隔20cm）提取SRIRs更实用，使移动源的模拟更容易以大致恒定的角速度进行。

数据集结构

数据集包含一个SRIRs的文件夹（TAU-SRIR_DB），每个房间的所有SRIRs在一个_mat_文件中，例如rirs_09_tb103.mat。特定房间测量了4个轨迹组，每个轨迹组在3个不同高度，因此mat文件包含一个4x3结构的rirs数组，每个结构包含mic和foa字段。例如，选择第2个轨迹和第3个高度rirs(2,3)返回mic和foa字段，每个字段包含一个大小为[7200x4x114]的数组。该数组包含特定格式的SRIRs，排列为[samples x channels x DOAs]，意味着在该特定轨迹上提取了300毫秒长（7200个样本@24kHz）的4通道RIRs，共114个位置。

文件rirdata.mat包含一些一般信息，如采样率、格式规范，最重要的是每个提取的SRIR的DOAs。这些可以在rirdata.room字段中找到，这是一个包含9个结构的数组，每个房间一个。例如，检查rirdata.room(8)返回特定房间的名称（tb103），测量年份，每个轨迹提取的SRIR数量，最后是提取的SRIR的DOAs。特定轨迹的DOAs可以检索为例如rirdata.room(8).rirs(2,3).doa_xyz，返回一个大小为[114x3]的数组。这些是前一步中为房间TB103的第2个轨迹、第3个源高度提取的114个SRIR的DOAs。

文件measinfo.mat包含每个房间的测量和记录信息。这些细节包括每个房间的名称，其矩形或梯形形状的尺寸，线性轨迹的起始和结束位置，或圆形轨迹的中心距离，每个轨迹组的源高度，目标格式，轨迹类型，记录设备，A加权环境声压级，以及测量噪声信号的最大和最小A加权声压级。坐标定义为相对于麦克风基座的原点。基于measinfo.mat中包含的信息，可以绘制围绕麦克风的轨迹的3D排列，尽管请注意，这些将是理想的圆形或线性预期轨迹，而实际DOAs从声学分析中获得的DOAs在这些理想路径周围有一些偏差。

最后，数据集包含一个空间环境噪声记录的文件夹（TAU-SNoise_DB），每个房间有一个子文件夹，包含两个格式的空间氛围录音，FOA或MIC。录音的长度在房间之间变化，从大约20分钟到30分钟不等。数据集的用户可以分割这些录音，并将它们添加到空间化的声音样本中，以所需SNR混合，或将不同段混合以增加原始录音时间以外的氛围。场景生成器的示例中演示了这种用例。

下载

文件TAU-SRIR_DB.z01，...，TAU-SRIR_DB.zip包含SRIRs和测量信息文件。文件TAU-SNoise_DB.z01，...，TAU-SNoise_DB.zip包含环境噪声录音。

下载zip文件并使用您喜欢的压缩工具解压这些分卷zip文件。要提取分卷zip存档（命名为zip，z01，z02，...），您可以使用例如Linux或OSX终端中的以下语法：

将分卷存档合并为一个存档：

zip -s 0 split.zip --out single.zip

使用unzip提取单个存档：

unzip single.zip

许可

该数据库在自定义的开放非商业性带归属许可下发布。可以在伴随数据的LICENSE.txt文件中找到。

搜集汇总

数据集介绍

构建方式

TAU空间房间脉冲响应数据库（TAU-SRIR DB）由坦佩雷大学音频研究团队精心构建，旨在为多通道信号处理算法提供真实混响环境下的训练与评估数据。该数据集采用Eigenmike球形麦克风阵列作为接收设备，通过Genelec G Three扬声器播放最大长度序列（MLS）作为激励信号，在九个不同室内场景中采集空间脉冲响应。采集过程涵盖2017至2020年两个阶段，源位置沿圆形或线性轨迹移动，以约1度角间距提取脉冲响应，从而支持移动声源场景的仿真。所有数据经短时傅里叶变换域的最小二乘回归处理后，降采样至24kHz，并同时记录30分钟的环境噪声，确保数据集的实用性与紧凑性。

特点

该数据集的核心特色在于其高分辨率多通道格式（32通道），可灵活衍生出多种应用格式，如一阶Ambisonics、四面体阵列或双耳信号。数据覆盖九个具有显著声学差异的室内空间，包括防空洞、体育馆、教室和会议室，为跨场景泛化研究提供基础。每个房间的脉冲响应沿密集测量轨迹提取，支持静态与动态声源定位、跟踪及事件检测任务。此外，数据集中包含基于声学分析的参考到达方向，通过MUSIC算法从直接路径中提取，为模型训练提供精确标注。环境噪声录音可分段使用，便于模拟不同信噪比条件，增强场景多样性。

使用方法

数据集的使用依托于配套的场景生成器，该工具可将脉冲响应与噪声录音结合，对音频样本库（如NIGENS或FSD50K）中的声音事件进行空间化，生成多通道混响场景。用户需首先下载SRIR数据和环境噪声文件，通过解压工具合并分卷压缩包。生成器支持FOA和MIC两种输出格式，并提供Python接口，允许用户自定义声源轨迹、混响强度及背景噪声水平。数据以MAT文件存储，包含脉冲响应矩阵及对应到达方向，用户可通过读取结构体字段（如`rirs(2,3).mic`）直接调用特定轨迹的响应。该工具已成功应用于DCASE挑战赛任务，验证了其在声源定位与检测研究中的实用性。

背景与挑战

背景概述

TAU Spatial Room Impulse Response Database (TAU-SRIR DB) 是由芬兰坦佩雷大学音频研究组（Audio Research Group）于2017年至2020年间精心构建的高分辨率空间房间脉冲响应数据集。该团队由Archontis Politis、Sharath Adavanne与Tuomas Virtanen等学者主导，核心研究问题聚焦于在真实混响环境中，为多通道信号处理算法提供标准化评估与训练基准。数据集收录了坦佩雷大学九种不同室内声学场景（如防空洞、体育馆、教室及会议室）的32通道脉冲响应，并创新性地沿测量轨迹密集提取响应数据，支持动态声源模拟。其问世填补了高保真、多格式空间声学数据集的空白，被广泛应用于DCASE挑战赛（2019-2022）的声音事件定位与检测任务，推动了空间音频处理领域从静态到动态、从单一房间到多场景泛化的研究范式演进。

当前挑战

该数据集面临的核心挑战可归纳为三个层面：其一，在领域问题层面，传统房间脉冲响应数据库多局限于静态声源或单一格式，难以满足复杂多源动态场景的算法验证需求，而TAU-SRIR DB虽提供了高密度轨迹采样与多格式转换能力，但如何从32通道原始数据中高效提取适用于特定任务（如双耳渲染、高阶Ambisonics）的降维表示，仍是一大技术难点。其二，在构建过程中，测量需在真实室内环境中同步控制声源移动轨迹、麦克风阵列响应及环境噪声，例如对圆形与线性轨迹的精确追踪要求亚度级角度分辨率，而不同房间的混响时间、背景噪声（如通风系统、健身房设备声）的差异显著增加了数据校准与标准化难度。其三，数据集尚处于持续扩充阶段，未来需解决多版本兼容性、更高保真度响应提取，以及跨房间泛化训练中声学特征对齐的挑战。

常用场景

经典使用场景

TAU-SRIR DB作为高分辨率空间房间冲激响应数据库，其核心应用在于构建多通道混响声学场景，用于评估和训练空间音频处理算法。该数据集通过32通道Eigenmike阵列在九个不同声学空间采集密集SRIR，支持从一阶Ambisonics到双耳格式的灵活转换。经典使用场景包括：在静态或动态条件下模拟单/多声源的混响声场，尤其适合声源定位与跟踪任务，如基于DOA的MUSIC算法验证；以及生成多房间多声源复杂配置的声学混合物，用于多通道语音增强和声学场景分析。其沿测量轨迹的密集SRIR提取方式，更使得移动声源的逼真仿真成为可能，为空间听觉研究提供了标准化的基准测试平台。

实际应用

在实际应用中，TAU-SRIR DB为智能语音设备、机器人听觉和虚拟现实等领域的空间音频技术落地提供了关键支撑。例如，在智能音箱的远场语音识别中，利用该数据集生成的混响训练数据可显著提升多房间环境下的唤醒词检测准确率；在机器人听觉系统中，其多声源定位数据被用于开发抗混响的声源追踪算法，实现嘈杂环境下的目标声源锁定。此外，该数据集与NIGENS、FSD50K等声音事件数据库结合，被直接用于生成DCASE挑战赛的基准数据集，为工业界评估声学SLAM系统、沉浸式通信设备等产品提供了标准化的测试框架。其配套的场景生成器更降低了实际部署中复现复杂声学场景的门槛。

衍生相关工作

该数据集衍生了一系列具有里程碑意义的学术工作，尤其在DCASE挑战赛框架下催生了系统性研究。基于TAU-SRIR DB生成的TAU Spatial Sound Events数据集系列（2019-2022），已成为声事件定位与检测（SELD）任务的事实标准，直接推动了多任务学习框架（如CRNN、Conformer）在空间音频领域的应用。其中，Politis等人2020年的DCASE研讨会论文首次系统描述了数据集构建方法，为后续SELD方法提供了可复现的基准。此外，基于该数据集的场景生成器被扩展用于生成训练数据，支撑了Krause等人的DCASE2022基线系统开发。这些工作共同构建了从数据采集、场景仿真到算法评估的完整研究链条，使TAU-SRIR DB成为空间音频领域最具影响力的基础设施之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集