DIRHA-ENGLISH

Name: DIRHA-ENGLISH
Creator: Bruno Kessler基金会
Published: 2017-10-07 03:20:38
License: 暂无描述

arXiv2017-10-07 更新2024-06-21 收录

下载链接：

http://dirha.fbk.eu/DIRHA_English

下载链接

链接失效反馈

官方服务：

资源简介：

DIRHA-ENGLISH数据集是由Bruno Kessler基金会创建的多麦克风语料库，专注于家庭环境中的远场语音识别。该数据集包含真实和模拟材料，涵盖了12位美国和12位英国英语母语者的多种语音内容，如丰富的音素句子、报纸文章、对话语音、关键词和命令。数据集通过在家庭环境中分布大量麦克风和麦克风阵列来收集，旨在解决远场语音识别中的挑战，如非平稳噪声和声学混响的影响。

The DIRHA-ENGLISH dataset is a multi-microphone corpus created by the Bruno Kessler Foundation, focusing on far-field speech recognition in home environments. This dataset includes both real and simulated materials, covering diverse speech content from 12 native American English speakers and 12 native British English speakers, such as rich phonetic sentences, newspaper articles, conversational speech, keywords and commands. It was collected by deploying a large number of microphones and microphone arrays in home environments, aiming to address the core challenges in far-field speech recognition, including the impacts of non-stationary noise and acoustic reverberation.

提供机构：

Bruno Kessler基金会

创建时间：

2017-10-07

搜集汇总

数据集介绍

构建方式

在远场语音识别研究领域，DIRHA-ENGLISH数据集的构建体现了对真实家庭环境的精细模拟。该数据集通过结合真实录制与仿真生成两种方式，采集了12位美式英语与12位英式英语母语者的语音材料，涵盖音素丰富句子、新闻文章、对话语音及命令等多种语音类型。在意大利特伦托的ITEA公寓中，利用分布于客厅与厨房的多个麦克风及阵列，录制了高保真语音信号；同时，基于脉冲响应估计与真实背景噪声的污染方法，生成了大量包含室内混响与噪声的一分钟多通道序列，确保了数据在声学条件上的多样性与真实性。

特点

DIRHA-ENGLISH数据集的核心特点在于其多房间、多麦克风的远场语音采集设置，能够为语音处理研究提供丰富的声学场景观察。数据集包含62个同步采样的麦克风通道，覆盖了从高质量全向麦克风到数字MEMS麦克风的不同设备类型，支持对麦克风阵列与单麦克风性能的对比分析。其材料分为仿真与真实两部分，既允许在受控条件下评估算法，又能验证在实际环境中的鲁棒性。数据集的开发集与测试集经过精心划分，兼容TIMIT与WSJ任务规范，为音素识别与大词汇量语音识别研究提供了标准化评估基准。

使用方法

DIRHA-ENGLISH数据集适用于远场语音识别、麦克风阵列处理及声学场景分析等多项任务。研究者可利用其多通道语音序列，开发并测试波束成形、麦克风选择、语音增强等前端算法，并结合Kaldi等开源工具链进行后端识别系统的训练与评估。数据集中提供的音素丰富句子支持纯音素环路任务，有助于聚焦声学模型在混响与噪声下的性能分析；而WSJ与对话语音部分则可用于大词汇量连续语音识别研究。数据集已公开部分序列，并附有基线实验方案，方便学术界进行系统对比与性能提升。

背景与挑战

背景概述

DIRHA-ENGLISH语料库诞生于欧洲DIRHA项目框架下，由意大利布鲁诺·凯斯勒基金会（FBK）的研究团队于2017年正式发布，旨在推动远场语音识别技术在家庭环境中的发展。该语料库聚焦于多麦克风阵列采集的远场语音数据，核心研究问题在于解决家庭复杂声学场景下，由混响、背景噪声及麦克风空间分布引起的语音识别性能下降难题。其创新性地融合了真实录制与仿真生成的数据，涵盖美式与英式英语的多种语音内容，为学术界提供了评估多通道语音前端处理与后端识别算法的基准资源，显著促进了远场语音交互系统的鲁棒性研究，成为该领域的重要数据支撑。

当前挑战

DIRHA-ENGLISH语料库所应对的核心领域挑战在于提升远场语音识别在家庭环境中的准确性与鲁棒性。家庭场景中普遍存在的非平稳噪声、多房间混响效应以及声源与麦克风的远距离分布，导致语音信号严重退化，传统近讲语音识别系统性能急剧下降。构建过程中的挑战则体现在数据采集与仿真的复杂性上：需在真实公寓中部署大量异构麦克风阵列并精确测量数千条房间脉冲响应，以确保仿真数据的声学真实性；同时，协调多说话人录制、语音内容多样性设计以及实时与仿真数据的时间对齐，均对语料库的规模与质量提出了极高要求。

常用场景

经典使用场景

在远场语音识别领域，DIRHA-ENGLISH数据集被广泛用于评估多麦克风阵列在复杂家庭环境中的性能。该数据集模拟了真实家庭场景中的声学条件，包括多房间布局、背景噪声和混响效应，为研究者提供了丰富的多通道语音数据。通过该数据集，可以系统性地测试语音增强、波束成形和麦克风选择等前端处理技术，以及深度神经网络等后端识别模型在远场条件下的鲁棒性。其经典的实验设置通常涉及在模拟和真实数据上进行音素错误率评估，以量化不同算法在抑制噪声和混响方面的有效性。

衍生相关工作

围绕DIRHA-ENGLISH数据集，衍生了一系列经典研究工作，主要集中在多麦克风语音处理算法的创新上。例如，研究者利用该数据集开发了基于深度神经网络的声学模型，显著提升了远场条件下的音素识别率；同时，针对麦克风选择策略的优化研究，如通过信道选择或波束成形技术改善语音信号质量，也成为重要方向。此外，该数据集还促进了与DIRHA项目其他语言语料的对比分析，以及跨数据集的挑战赛如REVERB和CHiME的扩展，推动了远场语音识别领域的标准化评估和算法交流。

数据集最近研究