five

mickylan2367/GraySpectrogram

收藏
Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mickylan2367/GraySpectrogram
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是将Google/Music-Caps的音频数据转换为频谱图的数据集。具体来说,它将20秒的wav文件转换为1600×800的png文件,使用librosa库进行频谱图生成,图像纵轴表示频率范围(0-10000Hz),横轴表示时间范围(0-40秒)。数据集的使用方法包括数据下载、数据加载器的创建等步骤,并提供了相关的代码示例和参考资料。
提供机构:
mickylan2367
原始信息汇总

数据集概述

基本信息

  • 采样率: 44100 Hz
  • 文件转换: 20秒的wav文件转换为1600×800的png文件
  • 图像轴:
    • 纵轴: (0-10000 Hz)
    • 横轴: (0-40秒)
  • 转换工具: librosa.specshow()

使用方法

0: 下载数据集

python from datasets import load_dataset data = load_dataset("mickylan2367/spectrogram") data = data["train"]

1: 加载到数据加载器

python from torchvision import transforms from torch.utils.data import DataLoader

BATCH_SIZE = ??? # 自定义设置 IMAGE_SIZE = ??? TRAIN_SIZE = ??? # 用于训练的数据集数量 TEST_SIZE = ??? # 用于测试的数据集数量

def load_datasets(): data_transforms = [ transforms.Resize((IMG_SIZE, IMG_SIZE)), transforms.ToTensor(), # 将数据缩放到[0,1] transforms.Lambda(lambda t: (t * 2) - 1) # 将数据缩放到[-1, 1] ] data_transform = transforms.Compose(data_transforms)

data = load_dataset("mickylan2367/spectrogram")
data = data["train"]
train = data[slice(0, TRAIN_SIZE, None)]
test = data[slice(TRAIN_SIZE, TRAIN_SIZE + TEST_SIZE, 0)]

for idx in range(len(train["image"])):
    train["image"][idx] = data_transform(train["image"][idx])
    test["image"][idx] = data_transform(test["image"][idx])

train = Dataset.from_dict(train)
train = train.with_format("torch") # 避免列表类型
test = Dataset.from_dict(train)
test = test.with_format("torch") # 避免列表类型

# 或者
train_loader = DataLoader(train, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(test, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
return train_loader, test_loader
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作