GTZAN音乐数据集
收藏阿里云天池2026-06-03 更新2025-05-17 收录
下载链接:
https://tianchi.aliyun.com/dataset/204041
下载链接
链接失效反馈官方服务:
资源简介:
GTZAN 数据集是机器聆听音乐流派识别 (MGR) 研究中最常用的公共数据集。这些文件是在 2000-2001 年从各种来源(包括个人 CD 、广播、麦克风录音)收集的。
GTZAN 数据集是一个广泛用于音乐信息检索、音乐分类和其他音乐相关任务的标准数据集。它包含了 1000 个来自 10 个不同类型的音乐样本,每个类型包含 100 个样本。这些音频样本的长度为 30 秒,采样率为 22050 Hz,以 16 位单声道 .wav 格式存储。这个数据集最初由 Marsyas 音乐信息检索工具包创建,并被广泛用于评估音乐分类算法的性能。
数据集包含:
原始流派– 10 个流派的集合,每个流派有 100 个音频文件,所有长度均为 30 秒(著名的 GTZAN 数据集,声音的 MNIST)
原始图像– 每个音频文件的视觉表示。对数据进行分类的一种方法是通过神经网络。由于 NN(如我们今天将要使用的 CNN)通常采用某种图像表示,因此音频文件被转换为梅尔频谱图以实现这一点。
2 个 CSV 文件– 包含音频文件的特征。一个文件包含每首歌曲(30 秒长)的平均值和方差,这些平均值和方差是通过可从音频文件中提取的多个特征计算得出的。另一个文件具有相同的结构,但歌曲之前被分成 3 秒的音频文件
The GTZAN dataset is the most widely used public dataset in the field of Music Genre Recognition (MGR) research. These audio files were collected between 2000 and 2001 from various sources, including personal CDs, broadcast recordings, and microphone recordings.
The GTZAN dataset is a standard benchmark widely adopted for music information retrieval, music classification, and other music-related tasks. It consists of 1000 music samples spanning 10 distinct genres, with 100 samples per genre. Each audio sample has a duration of 30 seconds, a sampling rate of 22050 Hz, and is stored in 16-bit mono .wav format. Originally created by the Marsyas music information retrieval toolkit, this dataset has been extensively used to evaluate the performance of music classification algorithms.
Datasets Included:
- Original Genre Files: A collection of 10 genres, with 100 audio files per genre, all 30 seconds in length (the famous GTZAN dataset, known as the "audio MNIST").
- Original Visual Images: Visual representations of each audio file. One approach to classifying this dataset is via neural networks. Since neural networks (such as the CNNs we will use today) typically require some form of image input, audio files are converted to mel-spectrograms for this purpose.
- Two CSV Files: Containing features extracted from audio files. One file includes the mean and variance values calculated from multiple features extractable from each 30-second song. The other file follows the same structure, but the original songs were split into 3-second audio segments prior to feature extraction.
提供机构:
阿里云天池
创建时间:
2025-05-14
搜集汇总
数据集介绍

背景与挑战
背景概述
GTZAN音乐数据集包含1000个30秒长度的音频样本,涵盖10种音乐风格(如蓝调、古典、乡村等),是音乐信息检索和分类研究的标准数据集。所有音频均为22050Hz采样率的16位单声道.wav格式文件。
以上内容由遇见数据集搜集并总结生成



