danilotpnta/GTZAN_genre_classification

Name: danilotpnta/GTZAN_genre_classification
Creator: danilotpnta
Published: 2024-07-03 15:14:52
License: 暂无描述

Hugging Face2024-07-03 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/danilotpnta/GTZAN_genre_classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含999个音频样本，每个样本具有多个特征，包括id、音频数据、流派、标题、艺术家、节奏、键、响度、预测流派排序以及t-SNE和UMAP的坐标。数据集主要用于音频分析和音乐流派分类任务。

This dataset contains 999 audio samples, each with multiple features including id, audio data, genre, title, artist, tempo, key, loudness, sorted predicted genres, and t-SNE and UMAP coordinates. The dataset is primarily used for audio analysis and music genre classification tasks.

提供机构：

danilotpnta

原始信息汇总

GTZAN 数据集概述

数据集信息

配置名称: gtzan
特征:
- id: 整数类型 (int32)
- audio: 音频类型，采样率为 44100 Hz
- genre: 字符串类型
- title: 字符串类型
- artist: 字符串类型
- tempo: 浮点类型 (float32)
- keys: 字符串类型
- loudness: 浮点类型 (float32)
- sorted_pred_genres: 字符串类型
- x_tsne: 浮点类型 (float32)
- y_tsne: 浮点类型 (float32)
- z_tsne: 浮点类型 (float32)
- x_umap: 浮点类型 (float32)
- y_umap: 浮点类型 (float32)
- z_umap: 浮点类型 (float32)

数据集分割

训练集:
- 样本数: 999
- 数据大小: 1323109027.0 字节

数据集大小

下载大小: 1305734429 字节
数据集大小: 1323109027.0 字节

配置

配置名称: gtzan
- 数据文件:
  - 训练集路径: gtzan/train-*
- 默认配置: 是

搜集汇总

数据集介绍

构建方式

danilotpnta/GTZAN_genre_classification数据集的构建基于GTZAN数据库，该数据库是音乐研究领域常用的数据集。数据集通过搜集具有不同音乐风格的歌曲，每首歌曲包含音频文件及相关元信息，如曲风、歌曲标题、艺术家、音量、音高等，进而构建成一个多维度特征的数据集。数据集的音频采样率为44100Hz，确保了音频质量。构建过程中，数据被分为训练集，共999个样本，为模型的训练提供了丰富的学习素材。

特点

该数据集显著的特点在于其丰富的音乐元信息，不仅包含音频文件，还涵盖了曲风、艺术家、歌曲标题等文本信息，以及音量、音高、节奏等音频特征信息。此外，数据集还提供了降维后的特征表示，如t-SNE和UMAP，有助于降低数据维度，便于可视化与分析。其多样化的特征为音乐风格识别、音乐信息检索等研究提供了坚实基础。

使用方法

在使用danilotpnta/GTZAN_genre_classification数据集时，用户首先需要根据MIT许可证的规定合理使用数据。数据集可通过HuggingFace的API进行下载，之后用户可以根据需要，将音频数据和元信息导入至相应的数据处理环境中。由于数据集已经包含了预处理后的降维特征，用户可以直接利用这些特征进行模型训练或数据分析，提高了研究的效率。

背景与挑战

背景概述

在音频信号处理与音乐信息检索领域，音乐风格分类是研究的重要方向之一。GTZAN_genre_classification数据集，创建于21世纪初，由丹尼尔·托平塔（Danilo T. P. da Silva）等研究人员构建，旨在解决音乐风格自动分类问题。该数据集汇集了多种音乐风格，提供了音频文件的元数据，如音乐流派、曲名、艺术家、音量、音高等信息，对于音乐信息检索领域产生了深远的影响，成为相关研究的基石。

当前挑战

GTZAN_genre_classification数据集面临的挑战主要涉及两个方面：首先，音乐风格分类本身具有模糊性，不同人对同一音乐片段的风格感知可能存在差异，这对算法的准确性和泛化能力提出了挑战。其次，在构建过程中，数据集的多样性和平衡性是关键因素，而该数据集在样本的分布上可能存在一定的偏差，这影响了模型的公正性和可靠性。

常用场景

经典使用场景

在音乐信息检索领域，danilotpnta/GTZAN_genre_classification数据集的经典使用场景是对音频文件进行音乐风格分类。该数据集提供了音频文件的采样率、风格、曲名、艺术家、节奏、音调、响度等信息，研究者可以利用这些特征训练机器学习模型，以实现对未知音乐片段的风格自动识别。

解决学术问题

该数据集解决了音乐风格分类中的标注不足、特征提取困难等学术研究问题。通过提供标准化的音频特征和预定的分类标签，它为研究者提供了一个统一的实验平台，有助于推动音乐风格识别算法的准确性和泛化能力的研究。

衍生相关工作

基于该数据集，研究者们衍生出了一系列相关工作，如音乐风格识别算法的改进、音频特征提取方法的研究、以及多模态音乐信息处理等。这些工作进一步拓展了音乐信息检索领域的研究边界，丰富了相关学术研究的内涵。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集