zhisheng01/SpatialSounds
收藏SpatialSounds 数据集概述
空间音频数据集(单声道/双耳/环绕声)
AudioSet(无回声音频源)
我们提供了 Balanced train 和 Evaluation 数据集供您使用。您可以从 SpatialSounds 下载。
对于 Unbalanced train 数据集,请参考 Official AudioSet。
元数据可以从 metadata 下载。
AudioSet ├── balanced_train │ └── audio │ │ ├── Y00M9FhCet6s.wav │ │ ├── Y00mE-lhe_R8.wav │ │ ├── ... ├── eval │ └── audio │ │ ├── Y007P6bFgRCU.wav │ │ ├── Y00AGIhlv-w0.wav │ │ ├── ...
权重
请参考 weights-generation 或使用我们提供的 权重。
混响
请访问 mp3d_reverberation 并手动下载。以下是混响数据的目录结构示例:
bash /path/to/reverb_root ├── train_reverberation.json ├── eval_reverberation.json ├── binaural │ ├── 17DRP5sb8fy │ │ ├── 0.npy │ │ ├── 10.npy │ │ ├── 17DRP5sb8fy.json │ │ ├── ... │ ├── 1LXtFkjw3qL │ │ ├── 0.npy │ │ ├── 10.npy │ │ ├── 1LXtFkjw3qL.json │ │ ├── ... ├── mono │ ├── 17DRP5sb8fy │ ├── ...
如何从单声道录音生成空间音频?
python import numpy as np import soundfile as sf from scipy import signal
audio, sr = sf.read(demo.wav) reverb = np.load(demo_reverb.npy) binaural = signal.fftconvolve(audio, reverb, mode=full)
或者您可以使用 torchaudio 实现这一点:
audio = torch.from_numpy(audio)
reverb = torch.from_numpy(reverb)
binaural = torchaudio.functional.fftconvolve(audio, reverb, mode=full)
SpatialSoundQA 数据集
根据 论文,我们提供了在不同训练阶段使用的训练数据。请参考 SpatialSoundQA。
TODO
- 上传 QA 评估集。




