wsj1_2345_db
收藏数据集概述
数据集目的
本数据集用于多通道盲源分离和去混响研究。
数据集生成
环境准备
使用Anaconda安装所有依赖项,并通过以下命令克隆仓库并创建环境: bash git clone git@github.com:fakufaku/create_wsj1_2345_db.git cd create_wsj1_2345_mix_spatialized conda env create -f environment.yml conda activate wsj1_2345_db
原始数据集
所需原始数据集包括:
数据集创建步骤
-
转换WSJ1格式至wav: bash python ./make_raw_wav.py config.json <original_datasets_dir> <output_dir>
-
从音频获取文本转录: bash python ./get_trans.py config.json <original_datasets_dir> <output_dir>
-
创建混合元数据: bash python ./create_mixinfo.py config.json <original_datasets_dir> <output_dir>
-
模拟传播并混合音频,然后检查: bash python ./mix.py config.json <original_datasets_dir> <output_dir> python ./check_mix.py config.json <original_datasets_dir> <output_dir>
-
向所有混合添加噪声,然后检查: bash python ./noise_add.py config.json <original_datasets_dir> <output_dir> python ./check_noisy_mix.py config.json <original_datasets_dir> <output_dir>
数据集配置
数据集生成通过JSON配置文件控制,包含以下参数:
- 数据库名称
- 麦克风和源的组合配置
- 房间、阵列、扬声器和噪声的参数设置
- 测试参数
数据集变更日志
- 修复所有种子,每个样本一个种子
- 仅使用numpy.random
- SNR计算基于混响信号
- 修正麦克风在球体上的位置
- 添加噪声SNR到混合信息文件
- 所有模拟参数定义移至配置文件
- 输出wav文件格式从float32改为int16
与MERL数据集的差异
- 处理更多源
- RIR生成器更改为pyroomacoustics
- 添加CHiME3背景噪声数据
- 最多支持6通道,与CHiME3通道数一致




