MB-RIRs

Name: MB-RIRs
Creator: Universitat Pompeu Fabra, Music Technology Group, Barcelona; Eurecat, Centre Tecnol`ogic de Catalunya, Tecnologies Multim`edia, Barcelona
Published: 2025-07-14 03:00:26
License: 暂无描述

arXiv2025-07-14 更新2025-07-16 收录

下载链接：

https://doi.org/10.5281/zenodo.15773093

下载链接

链接失效反馈

官方服务：

资源简介：

MB-RIRs数据集是一个包含频率相关吸收系数的合成房间脉冲响应数据集，用于单声道语音增强。该数据集由多频带吸收系数、源指向性和接收器指向性等三个特征构建，旨在提高合成房间脉冲响应数据集的生态有效性。数据集共包含60,000条记录，采样率为48kHz。MB-RIRs数据集的创建过程使用了传统的图像源方法（ISM）和鞋盒式房间模型，并通过多频带吸收系数等方法增强了数据的真实性和多样性。该数据集可用于语音增强、语音识别和关键词检测等任务。

The MB-RIRs dataset is a synthetic room impulse response dataset containing frequency-dependent absorption coefficients, designed for monaural speech enhancement. It is constructed based on three features: multi-band absorption coefficients, source directivity and receiver directivity, aiming to improve the ecological validity of synthetic room impulse response datasets. This dataset includes a total of 60,000 recordings with a sampling rate of 48 kHz. The development of the MB-RIRs dataset uses the traditional image source method (ISM) and shoebox room model, and enhances the authenticity and diversity of the data through methods such as multi-band absorption coefficients. This dataset can be applied to tasks including speech enhancement, speech recognition and keyword spotting.

提供机构：

Universitat Pompeu Fabra, Music Technology Group, Barcelona; Eurecat, Centre Tecnol`ogic de Catalunya, Tecnologies Multim`edia, Barcelona

创建时间：

2025-07-14

原始信息汇总

MB-RIRs Dataset 1.0

基本信息

发布日期: 2025年6月30日
版本: 1.0
访问权限: 开放访问
DOI: 10.5281/zenodo.15773093
资源类型: 数据集
发布者: Zenodo
会议: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Lake Tahoe, October 12-15, 2025
许可证: Creative Commons Zero v1.0 Universal

创建者

Gusó, Enric (联系人)
Luberadzka, Joanna (Fundació EURECAT)
Sayin Saraç, Umut (Fundacio Eurecat)

数据集描述

内容: 包含59,964个48kHz单声道合成房间脉冲响应(RIRs)，分为两个版本：
- MB: 使用多频带吸收系数。
- SRC+REC+MB: 额外使用源(平均人类语音)和接收器(左耳HRTFs)方向性。
元数据: 房间几何形状、源和接收器坐标以及混响时间T60s可在meta.csv中找到，其中id对应文件名。

文件信息

总大小: 13.8 GB
文件列表:
- mb.tar.part.aa.gz - mb.tar.part.ag.gz (MB版本分卷压缩文件)
- src_rec_mb.tar.part.aa.gz - src_rec_mb.tar.part.ah.gz (SRC+REC+MB版本分卷压缩文件)
- meta.csv (23.0 MB)
- README.md (1.1 kB)

提取方法

MB RIRs提取: bash for f in mb.tar.part..gz; do gunzip "$f"; done cat mb.tar.part. > mb_full.tar rm mb.tar.part.* tar -xf mb_full.tar rm mb_full.tar
SRC+REC+MB RIRs提取: bash for f in src_rec_mb.tar.part..gz; do gunzip "$f"; done cat src_rec_mb.tar.part. > src_rec_mb_full.tar rm src_rec_mb.tar.part.* tar -xf src_rec_mb_full.tar rm src_rec_mb_full.tar

资助信息

资助机构: European Commission
项目名称: GuestXR – GuestXR: A Machine Learning Agent for Social Harmony in eXtended Reality
项目编号: 101017884

软件信息

仓库地址: https://github.com/enricguso/guso_waspaa25
编程语言: Python
开发状态: 不活跃

参考文献

MB-RIRs: a Synthetic Room Impulse Response Dataset with Frequency-Dependent Absorption Coefficients, WASPAA2025

统计信息

总浏览量: 17
总下载量: 61
总数据量: 229.3 GB

关键词

room impulse responses

搜集汇总

数据集介绍

构建方式

MB-RIRs数据集通过多频带吸收系数、声源指向性和接收器指向性等策略，提升了合成房间脉冲响应（RIR）的生态效度。该数据集采用图像源方法（ISM）生成鞋盒式房间的RIR，并在48kHz采样率下进行渲染。具体而言，多频带吸收系数通过分析真实T60值的Gamma分布生成，声源和接收器的指向性则分别通过平均语音辐射模式和头相关传输函数（HRTF）建模。此外，数据集还包含来自SoundSpaces的基于网格的RIR，以提供复杂几何环境的参考。

特点

MB-RIRs数据集的主要特点包括多频带吸收系数的使用，能够更真实地模拟不同频率下的声学吸收特性。数据集在48kHz的高采样率下生成，显著提升了音频质量。声源和接收器的指向性建模进一步增强了声学场景的真实性。此外，数据集的多样性和规模（包含60k RIRs）使其适用于训练和评估语音增强模型。实验表明，使用多频带吸收系数的RIR在客观和主观评估中均优于传统单频带RIR。

使用方法

MB-RIRs数据集可用于训练和评估单声道语音增强（SE）模型。用户可以通过卷积干净语音信号与数据集中的RIR，模拟不同声学环境下的语音信号。数据集还支持对声源和接收器指向性效应的研究。实验表明，使用多频带吸收系数的RIR训练模型在真实RIR测试集上表现更优。数据集公开免费下载，适用于学术研究和工业应用。

背景与挑战

背景概述

MB-RIRs数据集由Universitat Pompeu Fabra和Eurecat的研究团队于2025年提出，旨在解决语音增强（SE）领域中合成房间脉冲响应（RIR）的生态效度问题。该数据集通过引入多频带吸收系数、声源指向性和接收器指向性等特征，显著提升了传统基于图像源方法（ISM）的合成RIR的真实性。研究团队在实验中证明，使用频率相关的声学吸收系数（MB-RIRs）能够在对真实RIR进行评估时获得更高的信号失真比（SDR）和主观听觉质量评分（MUSHRA）。MB-RIRs数据集的发布为语音增强领域提供了更高质量的训练数据，推动了相关算法在真实场景中的性能提升。

当前挑战

MB-RIRs数据集面临的挑战主要包括两个方面：首先，在领域问题方面，传统RIR数据集通常采用单一频带的声学吸收系数，无法准确模拟真实环境中的频率相关声学特性，导致语音增强模型在真实场景中的泛化能力受限。其次，在构建过程中，研究团队需要解决多频带声学参数的建模问题，包括从真实RIR数据中提取各频带的统计分布特征，并设计高效的声学仿真流程。此外，引入声源和接收器指向性特征时，还需处理球谐函数展开和头相关传输函数（HRTF）的应用等技术难题，这些都对数据集的构建提出了较高的计算和算法要求。

常用场景

经典使用场景

MB-RIRs数据集在语音增强（Speech Enhancement, SE）领域具有广泛的应用价值，尤其在单声道语音增强任务中表现突出。该数据集通过引入多频带吸收系数（multiband absorption coefficients）模拟真实房间的声学特性，显著提升了语音增强模型的性能。其经典使用场景包括训练和评估深度学习模型，如DeepFilterNet3，以优化语音去混响和降噪效果。通过模拟不同声学环境下的房间脉冲响应（RIRs），MB-RIRs为语音增强研究提供了多样化的训练数据。

衍生相关工作

MB-RIRs数据集衍生了一系列经典研究工作，包括基于多频带吸收系数的声学模拟方法、接收器和声源方向性建模，以及网格化RIRs的生成技术。相关研究如SoundSpaces数据集和URGENT Challenge进一步扩展了RIRs的应用范围，涵盖了音频-视觉导航和3D语音增强等领域。这些工作不仅验证了MB-RIRs的科学价值，还为语音增强技术的未来发展提供了新的方向。

数据集最近研究