Realistic_TIMIT_2mix
收藏arXiv2023-05-25 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2305.15758v1
下载链接
链接失效反馈官方服务:
资源简介:
Realistic_TIMIT_2mix是由高等应用科学与技术研究所创建的数据集,专注于单通道语音分离。该数据集包含30小时的真实语音混合,通过同时录制两个说话者的声音并获取每个说话者的地面实况来构建。数据集的创建过程涉及使用MATLAB的AudioPlayerRecorder功能,确保了录音的高质量和同步性。Realistic_TIMIT_2mix主要用于解决鸡尾酒会问题,即在多说话者环境中分离和识别个别语音信号,适用于人机交互、助听器设备和自动会议转录等领域。
Realistic_TIMIT_2mix is a dataset created by the Institute of Higher Applied Sciences and Technologies, focusing on single-channel speech separation. This dataset contains 30 hours of real-world speech mixtures, constructed by simultaneously recording the voices of two speakers and obtaining the ground truth for each speaker. The dataset's creation process uses MATLAB's AudioPlayerRecorder function to ensure high-quality and synchronized audio recording. Primarily designed to solve the cocktail party problem, which refers to separating and identifying individual speech signals in multi-talker environments, Realistic_TIMIT_2mix is applicable to fields such as human-computer interaction, hearing aid devices, and automatic meeting transcription.
提供机构:
高等应用科学与技术研究所
创建时间:
2023-05-25
搜集汇总
数据集介绍

构建方式
在语音分离领域,构建具有真实声学特性的数据集一直面临挑战,因为传统合成混合无法准确模拟现实环境中的非线性声学效应。Realistic_TIMIT_2mix通过创新方法解决了这一难题,其构建过程基于MATLAB的AudioPlayerRecorder对象实现全双工音频同步播放与录制。具体而言,该数据集以TIMIT语料库为基础,首先对每个说话人音频文件进行降采样处理,随后利用音频输出设备的左右声道同时播放两个说话人信号,并通过单一麦克风实时录制混合信号。为确保数据质量,算法在录制过程中严格监控并规避缓冲区溢出或欠载导致的样本丢失,同时通过高采样率硬件确保双通道播放的精确同步,从而生成与真实场景高度一致的混合语音及其对应的纯净说话人参考信号。
特点
Realistic_TIMIT_2mix的突出特点在于其真实性与高精度参考信号的并存,这在语音分离数据集中较为罕见。该数据集模拟了现实声学环境中的非线性混合效应,避免了传统合成数据集中简单的数字叠加方式,从而更贴近实际应用场景。其参考信号通过相同录制条件单独获取,确保了与混合信号在声学特性上的一致性,经评估显示其SI-SDR值可达14.3 dB,PESQ评分达3.20,具备高质量的监督学习基础。此外,数据集包含30小时训练集、10小时验证集和5小时测试集,覆盖多种方言和性别组合,增强了模型的泛化能力。
使用方法
该数据集主要用于监督式语音分离模型的训练与评估,为深度学习算法提供了真实环境下的训练样本。研究人员可基于混合信号及其对应的纯净参考信号,训练如双向门控循环单元等神经网络模型,学习从混合语音中分离出独立说话人信号。在评估阶段,可使用SI-SDR和PESQ等指标量化分离性能,并通过在不同距离条件下测试模型鲁棒性。数据集还可用于对比研究,验证在真实数据上训练的模型相较于合成数据训练的模型在噪声环境及距离变化下的稳定性优势。
背景与挑战
背景概述
语音分离作为解决鸡尾酒会问题的核心技术,在助听设备、人机交互及自动会议转录等现实应用中具有重要价值。近年来,基于深度学习的监督方法虽在合成数据集上取得显著进展,但其在真实环境中的泛化能力受限,主要源于缺乏带真实标注的混合语音数据。为此,叙利亚高等应用科学与技术研究所的Rawad Melhem等人于近期提出了Realistic_TIMIT_2mix数据集,旨在通过创新同步录制技术,首次构建包含真实环境语音混合及对应纯净源信号标注的数据集,以弥合合成数据与真实场景之间的鸿沟,推动监督学习在复杂声学条件下的应用。
当前挑战
该数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,语音分离任务需在单通道条件下从混合信号中解析出独立说话人语音,其难点在于真实环境中声学混响、背景噪声及信号非线性叠加导致的源信号模糊性,而现有合成数据集无法充分模拟这些复杂因素,导致模型在实际场景中性能骤降。在构建过程中,核心挑战在于如何同步获取真实混合语音及各说话人的真实标注信号,传统方法因无法保证两次录制条件完全一致而失效;研究团队通过MATLAB的AudioPlayerRecorder对象实现双通道同步播放与录制,并需克服硬件缓冲区的溢出、欠载及多通道时序对齐等技术难题,确保标注信号与混合信号在声学特性上严格对应。
常用场景
经典使用场景
在语音分离领域,Realistic_TIMIT_2mix数据集为鸡尾酒会问题的研究提供了关键支持。该数据集通过模拟真实环境中的双说话人混合语音,并附带高质量的真实标签,成为评估和监督学习模型训练的核心资源。其经典应用场景在于训练深度神经网络,如基于双向门控循环单元(BGRU)和聚类算法的模型,以提升在复杂声学条件下分离语音的准确性。数据集的设计确保了混合语音的自然性,避免了传统合成数据集中数字相加带来的失真,从而更贴近实际应用需求。
解决学术问题
Realistic_TIMIT_2mix数据集解决了语音分离研究中长期存在的真实数据缺失问题。传统合成数据集如WSJ0_2mix虽在理想条件下表现优异,但在真实环境中性能显著下降。该数据集通过同步录制双说话人语音并获取真实标签,填补了监督学习在真实混合语音上的空白。其意义在于推动了语音分离模型从合成环境向真实场景的过渡,提升了模型的泛化能力和鲁棒性。实验表明,使用该数据集训练的模型在SI-SDR和PESQ指标上均优于基于合成数据的模型,为学术研究提供了可靠的基准。
衍生相关工作
Realistic_TIMIT_2mix数据集的推出催生了一系列相关研究,特别是在真实环境语音分离的模型优化方面。基于该数据集,学者们探索了更先进的神经网络架构,如结合注意力机制和时频域交叉嵌入的分离模型。这些工作进一步验证了真实数据在提升模型稳定性方面的价值,尤其是在不同麦克风距离和声学条件下的鲁棒性测试中。此外,该数据集也为无监督和半监督学习方法提供了对比基准,推动了如MixIT和教师-学生框架等算法在真实语音分离任务中的应用与改进。
以上内容由遇见数据集搜集并总结生成



