wsj1_2345_db

github2021-12-06 更新2024-05-31 收录

下载链接：

https://github.com/fakufaku/create_wsj1_2345_db

下载链接

链接失效反馈

官方服务：

资源简介：

用于多通道盲源分离和去混响的数据集，基于wsj1和CHiME3数据集创建噪声多通道混响混合数据集。

A dataset for multi-channel blind source separation and dereverberation, created based on the WSJ1 and CHiME3 datasets to generate noisy multi-channel reverberant mixtures.

创建时间：

2021-10-15

原始信息汇总

数据集概述

数据集目的

本数据集用于多通道盲源分离和去混响研究。

数据集生成

环境准备

使用Anaconda安装所有依赖项，并通过以下命令克隆仓库并创建环境： bash git clone git@github.com:fakufaku/create_wsj1_2345_db.git cd create_wsj1_2345_mix_spatialized conda env create -f environment.yml conda activate wsj1_2345_db

原始数据集

所需原始数据集包括：

WSJ0 存储于csr_1目录。
WSJ1 存储于csr_2_comp目录。
CHIME3 (噪声数据) 存储于CHIME3目录。

数据集创建步骤

转换WSJ1格式至wav： bash python ./make_raw_wav.py config.json <original_datasets_dir> <output_dir>
从音频获取文本转录： bash python ./get_trans.py config.json <original_datasets_dir> <output_dir>
创建混合元数据： bash python ./create_mixinfo.py config.json <original_datasets_dir> <output_dir>
模拟传播并混合音频，然后检查： bash python ./mix.py config.json <original_datasets_dir> <output_dir> python ./check_mix.py config.json <original_datasets_dir> <output_dir>
向所有混合添加噪声，然后检查： bash python ./noise_add.py config.json <original_datasets_dir> <output_dir> python ./check_noisy_mix.py config.json <original_datasets_dir> <output_dir>

数据集配置

数据集生成通过JSON配置文件控制，包含以下参数：

数据库名称
麦克风和源的组合配置
房间、阵列、扬声器和噪声的参数设置
测试参数

数据集变更日志

修复所有种子，每个样本一个种子
仅使用numpy.random
SNR计算基于混响信号
修正麦克风在球体上的位置
添加噪声SNR到混合信息文件
所有模拟参数定义移至配置文件
输出wav文件格式从float32改为int16

与MERL数据集的差异

处理更多源
RIR生成器更改为pyroomacoustics
添加CHiME3背景噪声数据
最多支持6通道，与CHiME3通道数一致

搜集汇总

数据集介绍

构建方式

wsj1_2345_db数据集的构建过程基于多通道盲源分离和去混响的研究需求，采用了WSJ0、WSJ1和CHIME3三个原始数据集。通过配置JSON文件，用户可以灵活控制数据集的生成参数，包括麦克风数量、声源数量、房间尺寸、混响时间等。数据集生成过程分为多个步骤，包括音频格式转换、文本转录、混音元数据生成、音频传播模拟与混音、噪声添加等，确保生成的数据集具有高度的真实性和多样性。

使用方法

使用wsj1_2345_db数据集时，用户需首先配置环境并安装依赖项，随后通过命令行工具逐步生成数据集。用户可根据研究需求调整JSON配置文件中的参数，如麦克风数量、声源数量、房间尺寸等。生成的数据集可直接用于多通道盲源分离和去混响算法的训练与测试。此外，数据集提供了详细的混音元数据和噪声信息，便于用户进行深入分析和实验验证。

背景与挑战

背景概述

wsj1_2345_db数据集是一个专为多通道盲源分离和去混响研究而设计的数据集，由Robin Scheibler、Masahito Togami、Masaya Wake以及LINE Corporation的研究团队于2020年至2021年间创建。该数据集基于WSJ0、WSJ1和CHIME3等经典语音数据集构建，旨在模拟真实环境中的多源混合音频场景。通过引入房间声学模拟和噪声添加，wsj1_2345_db为语音信号处理领域的研究人员提供了一个高度可控且接近实际的实验平台，推动了盲源分离和去混响算法的研究进展。

当前挑战

wsj1_2345_db数据集在构建和应用中面临多重挑战。首先，多通道盲源分离和去混响问题本身具有高度复杂性，尤其是在多源混合和噪声干扰的情况下，如何准确分离和恢复原始信号仍是一个未完全解决的难题。其次，数据集的构建过程涉及复杂的声学模拟和信号处理步骤，包括房间脉冲响应生成、多源混合以及噪声添加等，这些步骤需要高精度的参数控制和计算资源支持。此外，数据集的生成依赖于多个原始数据集（如WSJ0、WSJ1和CHIME3），其格式和结构的差异增加了数据整合的难度。最后，如何确保生成的数据集在多样性和真实性之间取得平衡，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

在语音信号处理领域，wsj1_2345_db数据集被广泛用于多通道盲源分离和去混响研究。该数据集通过模拟真实环境中的声学传播和噪声干扰，生成了包含多个麦克风通道和多个声源的混合音频信号。研究者可以利用这些数据来开发和测试盲源分离算法，评估其在不同声学环境下的性能表现。

解决学术问题

wsj1_2345_db数据集解决了多通道盲源分离和去混响中的关键问题，特别是在复杂声学环境下的信号分离和噪声抑制。通过提供多样化的声学场景和噪声条件，该数据集帮助研究者验证算法的鲁棒性和泛化能力，推动了语音增强和语音识别技术的发展。

实际应用

在实际应用中，wsj1_2345_db数据集为智能语音助手、会议系统、助听设备等提供了重要的数据支持。通过使用该数据集训练的模型，能够有效提升语音信号在嘈杂环境中的清晰度和可理解性，从而改善用户体验和设备性能。

数据集最近研究