teticio/audio-diffusion-1024
收藏Hugging Face2022-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teticio/audio-diffusion-1024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过20,000个256x256的梅尔频谱图,这些频谱图是从Spotify喜欢的播放列表中提取的5秒音乐样本生成的。数据集的技术参数包括x_res=1024,y_res=1024,sample_rate=44100,n_fft=2048,hop_length=512。代码和脚本可以在https://github.com/teticio/audio-diffusion找到,用于将音频转换为频谱图,反之亦然,并使用去噪扩散概率模型进行训练和推理。
提供机构:
teticio
原始信息汇总
数据集概述
基本信息
- 数据集名称: Mel spectrograms of music
- 数据集大小: 10K<n<100K
- 标签: audio, spectrograms
- 任务类别: image-to-image
数据描述
- 数据内容: 包含超过20,000个256x256的梅尔频谱图,每个频谱图对应5秒的音乐样本,来源于作者的Spotify喜欢播放列表。
- 音频转换代码: 音频到频谱图的转换代码及其逆转换代码可在GitHub仓库中找到,同时包含用于训练和运行推理的脚本,使用去噪扩散概率模型。
技术参数
- 分辨率: x_res = 1024, y_res = 1024
- 采样率: sample_rate = 44100
- 快速傅里叶变换点数: n_fft = 2048
- 跳跃长度: hop_length = 512



