rirmega
收藏RIR-Mega数据集概述
基本信息
- 数据集名称:RIR-Mega
- 语言:英语
- 任务类别:音频到音频、自动语音识别、音频分类
- 许可证:CC-BY-NC-4.0
- 标签:音频、RIR、声学、去混响、鲁棒ASR、仿真、室内声学
数据集描述
RIR-Mega提供数千个模拟的房间脉冲响应,用于去混响、鲁棒语音识别和声学场景分析研究。该Hugging Face版本托管一个轻量级代表性子集,包含1,000个线性阵列和3,000个圆形阵列RIR,用于快速探索、教程和可复现基线。
完整50,000个RIR档案永久保存在Zenodo上。
数据集内容
文件结构
data/audio/linear:1,000个线性麦克风阵列模拟RIRdata/audio/circular:3,000个圆形阵列模拟RIRdata/metadata/metadata.csv/.parquet:连接每个文件与声学指标和仿真参数的紧凑模式rirmega/dataset.py:Hugging Face数据集加载器(支持流式传输)benchmarks/rt60_regression/:轻量级RT60回归基线scripts/:验证和校验和实用工具figs/:参考概述和验证图
数据模式
| 列名 | 含义 |
|---|---|
id |
唯一标识符 |
family |
"linear"或"circular" |
split |
train/valid/test |
fs |
采样率(Hz) |
wav |
音频文件相对路径 |
room_size, absorption, max_order |
仿真参数 |
metrics |
包含rt60、drr_db、c50_db、c80_db和带限RT60的JSON字符串 |
rng_seed |
可复现性的随机种子 |
使用方法
python from datasets import load_dataset ds = load_dataset("mandipgoswami/rirmega", trust_remote_code=True)
流式传输或部分下载: python ds = load_dataset("mandipgoswami/rirmega", streaming=True)
基线:RT60回归
使用轻量级特征+随机森林从RIR信号预测RT60类目标。
安装要求: bash pip install soundfile numpy pandas scikit-learn
运行训练: bash python benchmarks/rt60_regression/train_rt60.py
技术验证
分析了1,000个样本的随机子集进行内部一致性验证。从Schroeder能量衰减曲线导出的RT60值与元数据值强相关:
| 指标 | 相关性 | MAE (s) | RMSE (s) |
|---|---|---|---|
| RT60(元数据 vs EDC) | 0.96 | 0.013 | 0.022 |
引用信息
论文: Goswami, M. (2025). RIR-Mega: A Large-Scale Room Impulse Response Corpus with Benchmarks for Industrial and Building Acoustics. arXiv:2510.18917. https://arxiv.org/abs/2510.18917
数据集: Goswami, M. (2025). RIR-Mega Dataset (v1.0.0). Zenodo. https://doi.org/10.5281/zenodo.17387402




