VCTK_16k_simulated_data

github2023-06-01 更新2024-05-31 收录

下载链接：

https://github.com/TJU-haoran/VCTK-16k-simulated

下载链接

链接失效反馈

官方服务：

资源简介：

模拟自VCTK语料库（版本0.92）的数据，用于到达方向（DoA）估计。数据集包含6通道单源语音数据，用于训练、验证和测试，每个房间包含不同角度的语音数据。数据集还提供了详细的模拟过程和使用指南。

Simulated from the VCTK corpus (version 0.92), this dataset is designed for Direction of Arrival (DoA) estimation. It comprises 6-channel single-source speech data, intended for training, validation, and testing purposes. Each room within the dataset contains speech data from various angles. Additionally, the dataset provides a detailed simulation process and usage guidelines.

创建时间：

2022-03-28

原始信息汇总

数据集概述

数据集名称

MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound Sources

数据集内容

VCTK_16k_simulated_data.zip (8.11G)
- 包含模拟的6通道单源语音数据，用于训练、验证和测试。
- 数据分为三个部分：
  - train_50_rooms_4s: 用于训练，包含每个房间89个角度的语音数据。
  - valid_50_rooms_4s: 用于验证，包含每个房间9个角度的语音数据。
  - test_50_rooms_4s: 用于测试，包含每个房间9个角度的语音数据。
- 由于训练集语音数据过多，未预先混合多源多语音，而是在数据加载器中混合。

数据集使用

用户需下载数据集并替换波形路径以适应自己的路径。
使用提供的dataloader.py训练模型。

模拟过程

使用VCTK语料库（版本0.92）的单通道4秒语音数据，共15450条，采样率降为16kHz。
通过pyroomacoustics模拟6通道语音数据，房间参数随机生成，分为小、中、大三种类型。
将110位说话者分为训练、验证和测试集，分别模拟50个房间，每个房间设置不同数量的声源。

环境要求

Python 3.8.8
Pytorch 1.8.0

联系方式

由于保密要求，代码未开源，如有实验细节问题，请联系：
- Email: fuyanjie@tju.edu.cn, haoran_yin@tju.edu.cn

搜集汇总

数据集介绍

构建方式

VCTK_16k_simulated_data数据集的构建基于VCTK语料库（版本0.92），该语料库包含44455条48kHz的双通道语音数据，由110名英语使用者录制。研究团队从中筛选出15450条4秒长度的单通道语音数据，并将其采样率下采样至16kHz。随后，利用pyroomacoustics工具模拟生成6通道语音数据，模拟过程中设置了不同大小的房间类型（小、中、大），并随机生成了房间的长度、宽度和高度。麦克风阵列位于房间墙壁的中间位置，距离墙壁0.5米，距离地面2米。声源的角度和距离被随机设定，以确保声源在房间内的分布均匀。最终，数据集被划分为训练集、验证集和测试集，分别包含50个房间的模拟数据，训练集包含40,000条语音，验证集和测试集各包含1,000条语音。

使用方法

使用VCTK_16k_simulated_data数据集时，首先需要从提供的下载链接获取数据压缩包，解压后将文件放置在指定文件夹中。由于数据集中保存了绝对路径，用户可以通过提供的`replace_path.py`脚本替换为本地路径。随后，用户可以使用数据集提供的`dataloader.py`脚本加载数据，并用于模型的训练和验证。数据集中包含了详细的JSON文件，记录了每条语音的路径、角度、信干比（SIR）和语音活动检测（VAD）标签等信息，用户可以根据这些信息进行数据混合和处理。该数据集适用于多通道语音处理、声源定位等任务的研究和开发。

背景与挑战

背景概述

VCTK_16k_simulated_data数据集由天津大学的研究团队于2022年创建，主要研究人员包括Haoran Yin、Meng Ge等。该数据集旨在支持多通道输入和多输出方向性网络（MIMO-DoAnet）的研究，特别是在未知声源数量的情况下进行声源定位。数据集基于VCTK语料库（版本0.92），通过pyroomacoustics模拟生成6通道语音数据，涵盖了不同房间尺寸、混响时间和声源角度的多种场景。该数据集为声源定位领域的研究提供了丰富的实验数据，推动了多声源定位技术的发展，并在Interspeech 2022会议上发表了相关研究成果。

当前挑战

VCTK_16k_simulated_data数据集在构建和应用中面临多重挑战。首先，声源定位问题本身具有复杂性，尤其是在多声源场景下，声波叠加和混响效应会显著增加定位难度。其次，数据集的构建过程中需要精确模拟不同房间的声学特性，包括房间尺寸、混响时间和声源分布，这对模拟算法的精度和计算资源提出了较高要求。此外，数据集的规模庞大，训练集包含40,000条语音数据，处理和管理这些数据需要高效的存储和计算能力。最后，由于数据集的模拟过程涉及复杂的声学模型，如何确保模拟数据的真实性和泛化能力也是一个重要的技术挑战。

常用场景

经典使用场景

VCTK_16k_simulated_data数据集在声源定位领域具有广泛的应用，特别是在多通道输入和多输出声源定位网络（MIMO-DoAnet）的研究中。该数据集通过模拟不同房间环境下的多通道语音数据，为研究者提供了一个理想的实验平台，用于训练和验证声源定位算法。其经典使用场景包括在复杂声学环境中对未知数量声源的精确定位，以及在不同房间尺寸和混响条件下的声源分离研究。

解决学术问题

VCTK_16k_simulated_data数据集解决了声源定位领域中的多个关键问题，尤其是在未知声源数量的情况下如何实现精确的声源定位。通过提供多通道语音数据和详细的房间声学参数，该数据集为研究者提供了一个标准化的实验环境，使得他们能够系统地评估和改进声源定位算法的性能。此外，该数据集还支持多声源场景下的声源分离研究，为复杂声学环境中的语音处理提供了重要的数据支持。

实际应用

在实际应用中，VCTK_16k_simulated_data数据集被广泛用于智能语音助手、会议系统以及智能家居等领域的声源定位和语音增强技术开发。通过利用该数据集，开发者能够在模拟的真实环境中测试和优化其算法，从而提高语音识别和声源定位的准确性和鲁棒性。此外，该数据集还可用于自动驾驶系统中的声源定位，帮助车辆在复杂环境中识别和定位周围的声音信号。

数据集最近研究