five

teticio/audio-diffusion-1024

收藏
Hugging Face2022-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teticio/audio-diffusion-1024
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含超过20,000个256x256的梅尔频谱图,这些频谱图是从Spotify喜欢的播放列表中提取的5秒音乐样本生成的。数据集的技术参数包括x_res=1024,y_res=1024,sample_rate=44100,n_fft=2048,hop_length=512。代码和脚本可以在https://github.com/teticio/audio-diffusion找到,用于将音频转换为频谱图,反之亦然,并使用去噪扩散概率模型进行训练和推理。
提供机构:
teticio
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Mel spectrograms of music
  • 数据集大小: 10K<n<100K
  • 标签: audio, spectrograms
  • 任务类别: image-to-image

数据描述

  • 数据内容: 包含超过20,000个256x256的梅尔频谱图,每个频谱图对应5秒的音乐样本,来源于作者的Spotify喜欢播放列表。
  • 音频转换代码: 音频到频谱图的转换代码及其逆转换代码可在GitHub仓库中找到,同时包含用于训练和运行推理的脚本,使用去噪扩散概率模型。

技术参数

  • 分辨率: x_res = 1024, y_res = 1024
  • 采样率: sample_rate = 44100
  • 快速傅里叶变换点数: n_fft = 2048
  • 跳跃长度: hop_length = 512
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作