five

zhisheng01/SpatialSounds

收藏
Hugging Face2024-06-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/zhisheng01/SpatialSounds
下载链接
链接失效反馈
官方服务:
资源简介:
SpatialSounds数据集是一个用于支持空间音频研究的资源,包含单声道、双声道和Ambisonics格式的音频数据。数据集主要分为两部分:AudioSet无回声音频源和混响数据。AudioSet部分提供了平衡训练集和评估集,用户可以从指定链接下载音频文件和元数据。混响数据部分提供了训练和评估用的混响数据文件。此外,数据集还包含SpatialSoundQA数据集,该数据集提供了用于训练BAT模型的不同阶段的训练数据。README文件还提供了如何从单声道录音生成空间音频的示例代码。

The SpatialSounds dataset is a resource designed to support research on spatial audio, including mono, binaural, and Ambisonics formats. The dataset is divided into two main parts: the AudioSet anechoic audio source and reverberation data. The AudioSet section provides balanced training and evaluation sets, with audio files and metadata available for download from specified links. The reverberation data section includes training and evaluation reverberation data files. Additionally, the dataset includes the SpatialSoundQA dataset, which provides training data used in different stages of training the BAT model. The README file also provides example code on how to generate spatial audio from a monaural recording.
提供机构:
zhisheng01
原始信息汇总

SpatialSounds 数据集概述

空间音频数据集(单声道/双耳/环绕声)

AudioSet(无回声音频源)

我们提供了 Balanced trainEvaluation 数据集供您使用。您可以从 SpatialSounds 下载。 对于 Unbalanced train 数据集,请参考 Official AudioSet

元数据可以从 metadata 下载。

AudioSet ├── balanced_train │ └── audio │ │ ├── Y00M9FhCet6s.wav │ │ ├── Y00mE-lhe_R8.wav │ │ ├── ... ├── eval │ └── audio │ │ ├── Y007P6bFgRCU.wav │ │ ├── Y00AGIhlv-w0.wav │ │ ├── ...

权重

请参考 weights-generation 或使用我们提供的 权重

混响

请访问 mp3d_reverberation 并手动下载。以下是混响数据的目录结构示例:

bash /path/to/reverb_root ├── train_reverberation.json ├── eval_reverberation.json ├── binaural │ ├── 17DRP5sb8fy │ │ ├── 0.npy │ │ ├── 10.npy │ │ ├── 17DRP5sb8fy.json │ │ ├── ... │ ├── 1LXtFkjw3qL │ │ ├── 0.npy │ │ ├── 10.npy │ │ ├── 1LXtFkjw3qL.json │ │ ├── ... ├── mono │ ├── 17DRP5sb8fy │ ├── ...

如何从单声道录音生成空间音频?

python import numpy as np import soundfile as sf from scipy import signal

audio, sr = sf.read(demo.wav) reverb = np.load(demo_reverb.npy) binaural = signal.fftconvolve(audio, reverb, mode=full)

或者您可以使用 torchaudio 实现这一点:

audio = torch.from_numpy(audio)

reverb = torch.from_numpy(reverb)

binaural = torchaudio.functional.fftconvolve(audio, reverb, mode=full)

SpatialSoundQA 数据集

根据 论文,我们提供了在不同训练阶段使用的训练数据。请参考 SpatialSoundQA

TODO

  1. 上传 QA 评估集。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作