mickylan2367/GraySpectrogram

Name: mickylan2367/GraySpectrogram
Creator: mickylan2367
Published: 2023-10-04 04:46:03
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mickylan2367/GraySpectrogram

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是将Google/Music-Caps的音频数据转换为频谱图的数据集。具体来说，它将20秒的wav文件转换为1600×800的png文件，使用librosa库进行频谱图生成，图像纵轴表示频率范围（0-10000Hz），横轴表示时间范围（0-40秒）。数据集的使用方法包括数据下载、数据加载器的创建等步骤，并提供了相关的代码示例和参考资料。

提供机构：

mickylan2367

原始信息汇总

数据集概述

基本信息

采样率: 44100 Hz
文件转换: 20秒的wav文件转换为1600×800的png文件
图像轴:
- 纵轴: (0-10000 Hz)
- 横轴: (0-40秒)
转换工具: librosa.specshow()

使用方法

0: 下载数据集

python from datasets import load_dataset data = load_dataset("mickylan2367/spectrogram") data = data["train"]

1: 加载到数据加载器

python from torchvision import transforms from torch.utils.data import DataLoader

BATCH_SIZE = ??? # 自定义设置 IMAGE_SIZE = ??? TRAIN_SIZE = ??? # 用于训练的数据集数量 TEST_SIZE = ??? # 用于测试的数据集数量

def load_datasets(): data_transforms = [ transforms.Resize((IMG_SIZE, IMG_SIZE)), transforms.ToTensor(), # 将数据缩放到[0,1] transforms.Lambda(lambda t: (t * 2) - 1) # 将数据缩放到[-1, 1] ] data_transform = transforms.Compose(data_transforms)

data = load_dataset("mickylan2367/spectrogram")
data = data["train"]
train = data[slice(0, TRAIN_SIZE, None)]
test = data[slice(TRAIN_SIZE, TRAIN_SIZE + TEST_SIZE, 0)]

for idx in range(len(train["image"])):
    train["image"][idx] = data_transform(train["image"][idx])
    test["image"][idx] = data_transform(test["image"][idx])

train = Dataset.from_dict(train)
train = train.with_format("torch") # 避免列表类型
test = Dataset.from_dict(train)
test = test.with_format("torch") # 避免列表类型

# 或者
train_loader = DataLoader(train, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(test, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
return train_loader, test_loader

5,000+

优质数据集

54 个

任务类型

进入经典数据集