whisper-rirmega-bench
收藏Hugging Face2026-02-27 更新2026-02-28 收录
下载链接:
https://huggingface.co/datasets/mandipgoswami/whisper-rirmega-bench
下载链接
链接失效反馈官方服务:
资源简介:
Whisper-RIR-Mega 是一个用于评估自动语音识别(ASR)系统对房间声学条件鲁棒性的基准数据集,包含成对的干净和混响语音样本。每个样本包含:干净的语音(来自LibriSpeech test-clean,16kHz)、经过房间脉冲响应(RIR)处理的混响语音、参考文本转录以及RIR元数据(如rir_id、RT60、DRR、C50等)。数据集结构包含样本ID、干净音频、混响音频、参考文本、RIR ID、数据集划分(训练/验证/测试)和RIR元数据字段。该数据集基于LibriSpeech(CC BY 4.0)和RIR-Mega数据集构建,通过确定性分配和声学条件分层确保基准平衡。主要用途包括:评估Whisper等ASR系统在干净与混响语音上的性能差异(Δ WER)、跨不同RT60/DRR区间的鲁棒性分析,以及复现官方排行榜。数据集目前仅限英语,且默认配置中每个语音样本仅使用一个RIR处理。
创建时间:
2026-02-26
原始信息汇总
Whisper-RIR-Mega 数据集概述
数据集简介
Whisper-RIR-Mega 是一个用于评估自动语音识别(ASR)系统对房间声学鲁棒性的配对干净与混响语音基准数据集。每个样本包含干净的语音、经过房间脉冲响应(RIR)卷积的混响语音、参考文本以及相关的RIR元数据。
核心特性
- 数据对:每个样本提供同一话语的干净音频(
audio_clean)和混响音频(audio_reverb)。 - 声学条件平衡:数据划分(训练/验证/测试)根据可用的声学元数据(如RT60或DRR)进行分层,确保基准在不同声学条件下平衡。
- 用途:用于基准测试Whisper或任何ASR模型在干净与混响语音上的性能,计算混响惩罚(Δ WER),评估跨不同RT60/DRR区间的鲁棒性,并复现官方排行榜。
数据集结构
| 列名 | 类型 | 描述 |
|---|---|---|
sample_id |
字符串 | 唯一标识符(源自LibriSpeech和RIR) |
audio_clean |
音频 | 干净的16 kHz音频 |
audio_reverb |
音频 | 混响的16 kHz音频 |
text_ref |
字符串 | 参考转录文本 |
rir_id |
字符串 | RIR-Mega样本ID |
split |
字符串 | 数据划分:train / validation / test |
rir_* |
混合类型 | RIR元数据(如RT60_T30_s, DRR_dB等) |
数据划分说明:验证集(validation)和测试集(test)用于基准测试;训练集(train)为可选(默认配置仅使用测试集和验证集)。
构建方法
- 语音源:使用LibriSpeech test-clean数据集(CC BY 4.0许可),从Hugging Face流式加载。
- RIR源:使用数据集
mandipgoswami/rirmega(v2.0.0),包含RT60、DRR、C50等元数据。 - 处理流程:对每个话语,采样一个RIR(按RT60分层),在16 kHz下进行卷积,对RIR能量进行归一化并对输出进行峰值归一化。默认不添加噪声。
- 划分策略:确定性地将数据分配到验证集/测试集(例如20%/80%),并可选择按声学区层进行分层。
完整可复现性说明见GitHub仓库:https://github.com/mandipgoswami/Whisper_RIRMega
使用许可与引用
- 语音许可:LibriSpeech(CC BY 4.0)。
- RIR许可:遵循RIR-Mega数据集许可(详见 https://huggingface.co/datasets/mandipgoswami/rirmega)。
- 基准整理许可:MIT(本仓库)。
主要引用格式(BibTeX): bibtex @misc{whisper-rirmega-bench, title = {Whisper-RIR-Mega: Paired Clean-Reverberant Speech Robustness Benchmark}, author = {Goswami, Mandip}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/mandipgoswami/whisper-rirmega-bench}, note = {Dataset built with LibriSpeech and RIR-Mega.} }
局限性
- 仅限英语(源自LibriSpeech)。
- 默认设置中,每个话语仅使用一个RIR;可通过修改配置中的
k_rirs_per_utt来构建多RIR变体。 - 部分RIR-Mega样本可能缺少RIR元数据(如RT60、DRR);流程会存储所有可用信息。
相关资源
- 官方排行榜与交互式图表:请访问Hugging Face Space:https://huggingface.co/spaces/mandipgoswami/whisper-rirmega-benchmark
- RIR-Mega数据集:https://huggingface.co/datasets/mandipgoswami/rirmega
搜集汇总
数据集介绍
构建方式
在自动语音识别领域,评估模型对房间声学环境的鲁棒性至关重要。Whisper-RIR-Mega基准数据集的构建采用了系统化流程,其核心源于LibriSpeech test-clean语料库的纯净语音样本,这些样本均以16 kHz采样率提供并遵循CC BY 4.0许可。每个语音样本与来自RIR-Mega数据集(版本2.0.0)的一条房间冲激响应进行卷积运算,从而生成对应的混响版本。构建过程中,通过基于RT60或DRR等声学参数的确定性分层采样策略,确保了不同声学条件在验证集和测试集中的平衡分布。整个流程实现了高度可复现性,并严格保留了RIR元数据,为鲁棒性研究提供了可靠基础。
特点
该数据集的核心特征在于其精心设计的配对结构,每个样本均包含同一语句的纯净音频与经过房间冲激响应卷积生成的混响音频,并附有准确的参考文本。这种配对设计使得研究者能够直接量化混响引入的语音识别性能衰减,即计算混响惩罚值。数据集进一步整合了丰富的声学元数据,如RT60、DRR和C50等参数,支持按声学条件进行分层分析与评估。其数据划分策略确保了不同混响程度在测试集中的均衡呈现,为全面衡量自动语音识别系统在复杂声学环境下的鲁棒性提供了结构化基准。
使用方法
研究者可利用该数据集系统评估自动语音识别模型对房间混响的鲁棒性。典型使用流程包括加载数据集后,分别将纯净音频和混响音频输入待测模型进行转录,随后通过词错误率等指标对比识别结果与参考文本,从而计算出混响导致的性能下降。数据集支持按RT60或DRR等声学参数进行分层分析,以探究模型在不同混响强度下的表现差异。此外,其结构化设计便于集成到标准评估框架中,用于复现官方排行榜或构建自定义的鲁棒性测试基准,推动语音识别技术在真实环境中的进步。
背景与挑战
背景概述
在自动语音识别领域,模型在理想环境下的表现已趋近成熟,然而在复杂声学场景中的鲁棒性仍面临严峻考验。Whisper-RIR-Mega基准数据集由研究人员Mandip Goswami于2025年构建,旨在系统评估ASR系统对房间混响效应的抗干扰能力。该数据集基于LibriSpeech测试集与大规模房间脉冲响应库RIR-Mega,通过卷积生成成对的纯净与混响语音样本,并附带详尽的声学元数据。其核心研究问题聚焦于量化混响对语音识别精度的影响,为声学鲁棒性研究提供了标准化评估框架,推动了语音处理技术在真实环境中的应用进展。
当前挑战
该数据集致力于解决自动语音识别在复杂声学环境中的鲁棒性挑战,具体体现为量化混响导致的语音失真对识别准确率的负面影响。构建过程中的挑战主要包括声学元数据的完整性与一致性保障,需从异构来源的RIR-Mega库中提取并标准化RT60、DRR等参数;同时确保语音与脉冲响应的卷积处理在频域与时域上保持物理准确性,避免引入人为偏差。此外,数据划分需依据声学参数进行分层抽样,以平衡不同混响条件,这对统计代表性提出了较高要求。
常用场景
经典使用场景
在语音识别领域,评估模型在复杂声学环境下的鲁棒性是一项核心挑战。Whisper-RIR-Mega数据集通过提供成对的干净与混响语音样本,为研究者构建了一个标准化的基准测试平台。该数据集最经典的使用场景是系统性地衡量自动语音识别系统在混响条件下的性能衰减,即计算混响惩罚值(Δ WER),从而精确量化房间声学效应对识别准确率的影响。
解决学术问题
该数据集有效解决了语音技术研究中关于模型泛化能力与鲁棒性评估的关键问题。传统评估往往局限于理想环境,而Whisper-RIR-Mega引入了真实的房间脉冲响应,使得研究者能够深入探究混响时间、直达声与混响声能比等声学参数如何具体干扰语音识别过程。其意义在于推动了鲁棒语音识别研究从定性分析向定量、可复现的基准测试转变,为开发抗干扰算法提供了坚实的实证基础。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦于声学鲁棒性提升的经典研究工作。这些工作不仅包括对Whisper系列模型在不同混响条件下的系统性评测与比较,还催生了针对性的去混响前端处理算法、声学条件自适应模型以及基于元数据的鲁棒性预测模型。这些研究共同构成了一个以数据驱动为核心的学术脉络,持续推动着鲁棒语音识别技术边界的拓展。
以上内容由遇见数据集搜集并总结生成



