VCTK_16k_simulated_data
收藏github2023-06-01 更新2024-05-31 收录
下载链接:
https://github.com/TJU-haoran/VCTK-16k-simulated
下载链接
链接失效反馈官方服务:
资源简介:
模拟自VCTK语料库(版本0.92)的数据,用于到达方向(DoA)估计。数据集包含6通道单源语音数据,用于训练、验证和测试,每个房间包含不同角度的语音数据。数据集还提供了详细的模拟过程和使用指南。
Simulated from the VCTK corpus (version 0.92), this dataset is designed for Direction of Arrival (DoA) estimation. It comprises 6-channel single-source speech data, intended for training, validation, and testing purposes. Each room within the dataset contains speech data from various angles. Additionally, the dataset provides a detailed simulation process and usage guidelines.
创建时间:
2022-03-28
原始信息汇总
数据集概述
数据集名称
- MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound Sources
数据集内容
- VCTK_16k_simulated_data.zip (8.11G)
- 包含模拟的6通道单源语音数据,用于训练、验证和测试。
- 数据分为三个部分:
- train_50_rooms_4s: 用于训练,包含每个房间89个角度的语音数据。
- valid_50_rooms_4s: 用于验证,包含每个房间9个角度的语音数据。
- test_50_rooms_4s: 用于测试,包含每个房间9个角度的语音数据。
- 由于训练集语音数据过多,未预先混合多源多语音,而是在数据加载器中混合。
数据集使用
- 用户需下载数据集并替换波形路径以适应自己的路径。
- 使用提供的
dataloader.py训练模型。
模拟过程
- 使用VCTK语料库(版本0.92)的单通道4秒语音数据,共15450条,采样率降为16kHz。
- 通过pyroomacoustics模拟6通道语音数据,房间参数随机生成,分为小、中、大三种类型。
- 将110位说话者分为训练、验证和测试集,分别模拟50个房间,每个房间设置不同数量的声源。
环境要求
- Python 3.8.8
- Pytorch 1.8.0
联系方式
- 由于保密要求,代码未开源,如有实验细节问题,请联系:
- Email: fuyanjie@tju.edu.cn, haoran_yin@tju.edu.cn
搜集汇总
数据集介绍

构建方式
VCTK_16k_simulated_data数据集的构建基于VCTK语料库(版本0.92),该语料库包含44455条48kHz的双通道语音数据,由110名英语使用者录制。研究团队从中筛选出15450条4秒长度的单通道语音数据,并将其采样率下采样至16kHz。随后,利用pyroomacoustics工具模拟生成6通道语音数据,模拟过程中设置了不同大小的房间类型(小、中、大),并随机生成了房间的长度、宽度和高度。麦克风阵列位于房间墙壁的中间位置,距离墙壁0.5米,距离地面2米。声源的角度和距离被随机设定,以确保声源在房间内的分布均匀。最终,数据集被划分为训练集、验证集和测试集,分别包含50个房间的模拟数据,训练集包含40,000条语音,验证集和测试集各包含1,000条语音。
使用方法
使用VCTK_16k_simulated_data数据集时,首先需要从提供的下载链接获取数据压缩包,解压后将文件放置在指定文件夹中。由于数据集中保存了绝对路径,用户可以通过提供的`replace_path.py`脚本替换为本地路径。随后,用户可以使用数据集提供的`dataloader.py`脚本加载数据,并用于模型的训练和验证。数据集中包含了详细的JSON文件,记录了每条语音的路径、角度、信干比(SIR)和语音活动检测(VAD)标签等信息,用户可以根据这些信息进行数据混合和处理。该数据集适用于多通道语音处理、声源定位等任务的研究和开发。
背景与挑战
背景概述
VCTK_16k_simulated_data数据集由天津大学的研究团队于2022年创建,主要研究人员包括Haoran Yin、Meng Ge等。该数据集旨在支持多通道输入和多输出方向性网络(MIMO-DoAnet)的研究,特别是在未知声源数量的情况下进行声源定位。数据集基于VCTK语料库(版本0.92),通过pyroomacoustics模拟生成6通道语音数据,涵盖了不同房间尺寸、混响时间和声源角度的多种场景。该数据集为声源定位领域的研究提供了丰富的实验数据,推动了多声源定位技术的发展,并在Interspeech 2022会议上发表了相关研究成果。
当前挑战
VCTK_16k_simulated_data数据集在构建和应用中面临多重挑战。首先,声源定位问题本身具有复杂性,尤其是在多声源场景下,声波叠加和混响效应会显著增加定位难度。其次,数据集的构建过程中需要精确模拟不同房间的声学特性,包括房间尺寸、混响时间和声源分布,这对模拟算法的精度和计算资源提出了较高要求。此外,数据集的规模庞大,训练集包含40,000条语音数据,处理和管理这些数据需要高效的存储和计算能力。最后,由于数据集的模拟过程涉及复杂的声学模型,如何确保模拟数据的真实性和泛化能力也是一个重要的技术挑战。
常用场景
经典使用场景
VCTK_16k_simulated_data数据集在声源定位领域具有广泛的应用,特别是在多通道输入和多输出声源定位网络(MIMO-DoAnet)的研究中。该数据集通过模拟不同房间环境下的多通道语音数据,为研究者提供了一个理想的实验平台,用于训练和验证声源定位算法。其经典使用场景包括在复杂声学环境中对未知数量声源的精确定位,以及在不同房间尺寸和混响条件下的声源分离研究。
解决学术问题
VCTK_16k_simulated_data数据集解决了声源定位领域中的多个关键问题,尤其是在未知声源数量的情况下如何实现精确的声源定位。通过提供多通道语音数据和详细的房间声学参数,该数据集为研究者提供了一个标准化的实验环境,使得他们能够系统地评估和改进声源定位算法的性能。此外,该数据集还支持多声源场景下的声源分离研究,为复杂声学环境中的语音处理提供了重要的数据支持。
实际应用
在实际应用中,VCTK_16k_simulated_data数据集被广泛用于智能语音助手、会议系统以及智能家居等领域的声源定位和语音增强技术开发。通过利用该数据集,开发者能够在模拟的真实环境中测试和优化其算法,从而提高语音识别和声源定位的准确性和鲁棒性。此外,该数据集还可用于自动驾驶系统中的声源定位,帮助车辆在复杂环境中识别和定位周围的声音信号。
数据集最近研究
最新研究方向
在声源定位领域,VCTK_16k_simulated_data数据集为多通道输入与多输出方向估计网络(MIMO-DoAnet)的研究提供了重要支持。该数据集通过模拟不同房间环境下的多通道语音数据,涵盖了多种声源数量和角度组合,为研究未知数量声源的定位问题提供了丰富的实验基础。近年来,随着智能语音交互和声学场景分析的快速发展,声源定位技术在智能家居、自动驾驶等领域的应用日益广泛。VCTK_16k_simulated_data的推出,不仅为多通道声学信号处理提供了高质量的训练和测试数据,还推动了基于深度学习的声源定位算法的创新与优化。其模拟数据的多样性和真实性为研究者在复杂声学环境下的算法性能评估提供了重要参考,进一步促进了声源定位技术的实际应用与推广。
以上内容由遇见数据集搜集并总结生成



