mickylan2367/GraySpectrogram
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mickylan2367/GraySpectrogram
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是将Google/Music-Caps的音频数据转换为频谱图的数据集。具体来说,它将20秒的wav文件转换为1600×800的png文件,使用librosa库进行频谱图生成,图像纵轴表示频率范围(0-10000Hz),横轴表示时间范围(0-40秒)。数据集的使用方法包括数据下载、数据加载器的创建等步骤,并提供了相关的代码示例和参考资料。
提供机构:
mickylan2367
原始信息汇总
数据集概述
基本信息
- 采样率: 44100 Hz
- 文件转换: 20秒的wav文件转换为1600×800的png文件
- 图像轴:
- 纵轴: (0-10000 Hz)
- 横轴: (0-40秒)
- 转换工具: librosa.specshow()
使用方法
0: 下载数据集
python from datasets import load_dataset data = load_dataset("mickylan2367/spectrogram") data = data["train"]
1: 加载到数据加载器
python from torchvision import transforms from torch.utils.data import DataLoader
BATCH_SIZE = ??? # 自定义设置 IMAGE_SIZE = ??? TRAIN_SIZE = ??? # 用于训练的数据集数量 TEST_SIZE = ??? # 用于测试的数据集数量
def load_datasets(): data_transforms = [ transforms.Resize((IMG_SIZE, IMG_SIZE)), transforms.ToTensor(), # 将数据缩放到[0,1] transforms.Lambda(lambda t: (t * 2) - 1) # 将数据缩放到[-1, 1] ] data_transform = transforms.Compose(data_transforms)
data = load_dataset("mickylan2367/spectrogram")
data = data["train"]
train = data[slice(0, TRAIN_SIZE, None)]
test = data[slice(TRAIN_SIZE, TRAIN_SIZE + TEST_SIZE, 0)]
for idx in range(len(train["image"])):
train["image"][idx] = data_transform(train["image"][idx])
test["image"][idx] = data_transform(test["image"][idx])
train = Dataset.from_dict(train)
train = train.with_format("torch") # 避免列表类型
test = Dataset.from_dict(train)
test = test.with_format("torch") # 避免列表类型
# 或者
train_loader = DataLoader(train, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
test_loader = DataLoader(test, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)
return train_loader, test_loader



