Feanix/gtzan-10-sec
收藏Hugging Face2023-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Feanix/gtzan-10-sec
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: GTZAN
task_categories:
- audio-classification
tags:
- music
size_categories:
- 1K<n<10K
---
# Dataset Card for GTZAN
## Table of Contents
- [Dataset Card for GTZAN](#dataset-card-for-gtzan)
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Initial Data Collection and Normalization](#initial-data-collection-and-normalization)
- [Who are the source language producers?](#who-are-the-source-language-producers)
- [Annotations](#annotations)
- [Annotation process](#annotation-process)
- [Who are the annotators?](#who-are-the-annotators)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** [http://marsyas.info/downloads/datasets.html](http://marsyas.info/downloads/datasets.html)
- **Paper:** [http://ismir2001.ismir.net/pdf/tzanetakis.pdf](http://ismir2001.ismir.net/pdf/tzanetakis.pdf)
- **Point of Contact:**
### Dataset Summary
GTZAN is a dataset for musical genre classification of audio signals. The dataset consists of 1,000 audio tracks, each of 30 seconds long. It contains 10 genres, each represented by 100 tracks. The tracks are all 22,050Hz Mono 16-bit audio files in WAV format. The genres are: blues, classical, country, disco, hiphop, jazz, metal, pop, reggae, and rock.
*** THIS VERSION OF THE DATASET CONTAINS THE ORIGINAL AUDIO TRACKS SEGMENTED INTO 10 SECOND LONG FILES ***
### Languages
English
## Dataset Structure
GTZAN is distributed as a single dataset without a predefined training and test split. The information below refers to the single `train` split that is assigned by default.
### Data Instances
An example of GTZAN looks as follows:
```python
{
"file": "/path/to/cache/genres/blues/blues.00000.wav",
"audio": {
"path": "/path/to/cache/genres/blues/blues.00000.wav",
"array": array(
[
0.00732422,
0.01660156,
0.00762939,
...,
-0.05560303,
-0.06106567,
-0.06417847,
],
dtype=float32,
),
"sampling_rate": 22050,
},
"genre": 0,
}
```
### Data Fields
The types associated with each of the data fields is as follows:
* `file`: a `string` feature.
* `audio`: an `Audio` feature containing the `path` of the sound file, the decoded waveform in the `array` field, and the `sampling_rate`.
* `genre`: a `ClassLabel` feature.
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
```
@misc{tzanetakis_essl_cook_2001,
author = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title = "Automatic Musical Genre Classification Of Audio Signals",
url = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year = "2001"
}
```
### Contributions
Thanks to [@lewtun](https://github.com/lewtun) for adding this dataset.
---
数据集名称:GTZAN
任务类别:
- 音频分类(audio-classification)
标签:
- 音乐
样本量级:
- 1K<n<10K
---
# GTZAN数据集卡片
## 目录
- [GTZAN数据集卡片](#gtzan数据集卡片)
- [目录](#目录)
- [数据集描述](#数据集描述)
- [数据集概述](#数据集概述)
- [语言](#语言)
- [数据集结构](#数据集结构)
- [数据实例](#数据实例)
- [数据字段](#数据字段)
- [数据划分](#数据划分)
- [数据集构建](#数据集构建)
- [构建初衷](#构建初衷)
- [源数据](#源数据)
- [初始数据收集与标准化](#初始数据收集与标准化)
- [源数据生产者是谁?](#源数据生产者是谁?)
- [标注信息](#标注信息)
- [标注流程](#标注流程)
- [标注者是谁?](#标注者是谁?)
- [个人与敏感信息](#个人与敏感信息)
- [数据使用注意事项](#数据使用注意事项)
- [数据集的社会影响](#数据集的社会影响)
- [偏差讨论](#偏差讨论)
- [其他已知局限性](#其他已知局限性)
- [附加信息](#附加信息)
- [数据集维护者](#数据集维护者)
- [授权信息](#授权信息)
- [引用信息](#引用信息)
- [贡献者](#贡献者)
## 数据集描述
- **主页**:[http://marsyas.info/downloads/datasets.html](http://marsyas.info/downloads/datasets.html)
- **论文**:[http://ismir2001.ismir.net/pdf/tzanetakis.pdf](http://ismir2001.ismir.net/pdf/tzanetakis.pdf)
- **联系人**:
### 数据集概述
GTZAN是一款用于音频信号音乐流派分类的数据集。该数据集包含1000条音频片段,每条时长30秒,涵盖10个音乐流派,每个流派对应100条音频片段。所有音频均为22050Hz单声道16位WAV格式文件,包含的流派为:蓝调、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼以及摇滚。
*** 本版本数据集将原始音频片段切割为10秒时长的文件 ***
### 语言
英语
## 数据集结构
GTZAN以单一数据集形式发布,未预设训练集与测试集划分。下述信息对应默认分配的单一`train`(训练)划分。
### 数据实例
GTZAN的单条数据示例如下:
python
{
"file": "/path/to/cache/genres/blues/blues.00000.wav",
"audio": {
"path": "/path/to/cache/genres/blues/blues.00000.wav",
"array": array(
[
0.00732422,
0.01660156,
0.00762939,
...,
-0.05560303,
-0.06106567,
-0.06417847,
],
dtype=float32,
),
"sampling_rate": 22050,
},
"genre": 0,
}
### 数据字段
各数据字段对应的类型如下:
* `file`:字符串(string)类型特征。
* `audio`:音频(Audio)特征,包含音频文件路径`path`、解码后的波形数组`array`以及采样率`sampling_rate`。
* `genre`:类别标签(ClassLabel)类型特征。
### 数据划分
[更多信息待补充]
## 数据集构建
### 构建初衷
[更多信息待补充]
### 源数据
#### 初始数据收集与标准化
[更多信息待补充]
#### 源数据生产者是谁?
[更多信息待补充]
### 标注信息
#### 标注流程
[更多信息待补充]
#### 标注者是谁?
[更多信息待补充]
### 个人与敏感信息
[更多信息待补充]
## 数据使用注意事项
### 数据集的社会影响
[更多信息待补充]
### 偏差讨论
[更多信息待补充]
### 其他已知局限性
[更多信息待补充]
## 附加信息
### 数据集维护者
[更多信息待补充]
### 授权信息
[更多信息待补充]
### 引用信息
@misc{tzanetakis_essl_cook_2001,
author = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title = "Automatic Musical Genre Classification Of Audio Signals",
url = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "国际音乐信息检索学会",
year = "2001"
}
### 贡献者
感谢[@lewtun](https://github.com/lewtun) 为本数据集的添加工作。
提供机构:
Feanix
原始信息汇总
数据集概述
- 名称: GTZAN
- 任务类别: 音频分类
- 标签: 音乐
- 大小类别: 1K<n<10K
数据集描述
- 概述: GTZAN是一个用于音乐类型分类的音频数据集,包含1000个音频轨道,每个轨道30秒长。数据集涵盖10种音乐类型,每种类型由100个轨道代表。所有轨道均为22,050Hz单声道16位WAV格式。音乐类型包括:蓝调、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼和摇滚。
- 语言: 英语
数据集结构
- 数据实例: 每个实例包含文件路径、音频数据(包括路径、数组和采样率)和音乐类型标签。
- 数据字段:
file: 字符串类型audio: 音频类型,包含路径、解码波形和采样率genre: 类别标签类型
数据集创建
- 来源数据:
- 初始数据收集和标准化: 信息缺失
- 源语言生产者: 信息缺失
- 注释:
- 注释过程: 信息缺失
- 注释者: 信息缺失
使用数据时的考虑
- 数据集的社会影响: 信息缺失
- 偏见讨论: 信息缺失
- 其他已知限制: 信息缺失
附加信息
-
数据集管理员: 信息缺失
-
许可信息: 信息缺失
-
引用信息:
@misc{tzanetakis_essl_cook_2001, author = "Tzanetakis, George and Essl, Georg and Cook, Perry", title = "Automatic Musical Genre Classification Of Audio Signals", url = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf", publisher = "The International Society for Music Information Retrieval", year = "2001" }
-
贡献者: 感谢@lewtun添加此数据集。
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,GTZAN数据集的构建体现了早期音频分类研究的系统性探索。该数据集最初由George Tzanetakis等人于2001年收集,旨在为音乐流派自动分类提供标准化的音频样本。其构建过程涉及从多种渠道采集原始音频素材,涵盖蓝调、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼和摇滚共十种音乐流派。每个流派精选100条音轨,每条音轨统一截取为30秒片段,并转换为22,050Hz采样率、16位深度的单声道WAV格式,确保了音频特征的规范性与可比性。当前版本进一步将原始音轨细分为10秒片段,以适应现代深度学习模型对短时音频分析的需求。
特点
作为音乐流派分类领域的经典数据集,GTZAN展现出多维度特征。其核心在于均衡的流派分布,十种音乐类别各含100个样本,为分类任务提供了结构化的评估基准。音频数据采用统一的22,050Hz采样率与单声道格式,消除了技术参数差异对特征提取的干扰。数据集虽未预设官方划分方案,但千条音轨的规模为研究者提供了灵活的交叉验证空间。值得注意的是,该数据集虽被广泛引用,但其原始采集过程与标注细节在公开文档中尚未完全阐明,这要求使用者关注潜在的数据偏差与时代局限性。
使用方法
在实践应用中,GTZAN数据集主要服务于音乐流派自动分类模型的训练与验证。研究者可通过加载WAV格式音频文件及其对应的流派标签,构建端到端的分类管道。典型流程包括音频波形预处理、梅尔频谱特征提取,以及基于卷积神经网络或时序模型的分类器设计。由于数据集未预设标准划分,建议采用分层抽样或十折交叉验证策略以确保评估的稳健性。该数据集亦适用于迁移学习研究,其预提取的特征可作为其他音乐分析任务的基准表示。使用时应引用原始论文,并注意结合后续研究对数据集局限性的讨论。
背景与挑战
背景概述
GTZAN数据集诞生于2001年,由George Tzanetakis、Georg Essl和Perry Cook等学者共同构建,旨在推动音乐信息检索领域的发展。该数据集聚焦于音乐流派自动分类这一核心研究问题,涵盖了布鲁斯、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼和摇滚等十种流派,每种流派包含100段30秒的音频片段。作为早期音乐分类研究的基石,GTZAN为后续的音频信号处理与机器学习模型提供了标准化的评估基准,极大地促进了音乐流派识别技术的进步,并在学术界与工业界产生了深远影响。
当前挑战
GTZAN数据集在音乐流派分类任务中面临多重挑战。在领域问题层面,音频信号的高维性与流派间的模糊边界使得特征提取与分类模型设计尤为复杂,例如摇滚与金属流派在节奏与音色上常存在重叠,导致分类准确率受限。在构建过程中,数据收集与标注的标准化不足构成显著障碍,原始音频来源的多样性与录音质量的差异可能引入噪声,而人工标注流派时的主观性也可能影响数据一致性,这些因素共同制约了数据集的可靠性与泛化能力。
常用场景
经典使用场景
在音乐信息检索领域,GTZAN数据集作为音频信号自动分类的基准资源,其经典使用场景集中于音乐流派识别任务。该数据集通过提供涵盖布鲁斯、古典、乡村等十种流派的1000个音频片段,为研究者构建和评估机器学习模型提供了标准化测试平台。在音频特征提取与模式识别研究中,学者们常利用这些时长均匀的片段,探索频谱特征与时域特征的组合效果,验证不同分类算法在音乐语义理解中的性能表现。
衍生相关工作
围绕该数据集产生的经典研究包括Tzanetakis等人开创性的多特征融合分类框架,该工作首次系统论证了时频谱特征组合在音乐分类中的优势。后续研究进一步拓展了深度学习方法的应用,如卷积神经网络在原始音频波形上的端到端学习。这些工作不仅完善了音乐特征表示理论,更催生了MusicNet、MagnaTagATune等衍生数据集的构建,形成了音乐计算领域的良性研究生态。
数据集最近研究
最新研究方向
在音乐信息检索领域,GTZAN数据集作为音乐流派分类的基准资源,持续推动着音频信号处理的前沿探索。近年来,研究焦点逐渐转向深度学习模型的优化与跨领域应用,例如利用卷积神经网络和Transformer架构提升特征提取的精度,以应对流派间模糊边界的挑战。同时,数据增强技术与自监督学习方法的引入,旨在缓解数据集规模有限带来的过拟合问题,并促进模型在未标记音频数据上的泛化能力。此外,随着音乐流媒体服务的普及,该数据集在个性化推荐系统和实时音乐分析中的实际应用也备受关注,其影响不仅限于学术研究,更延伸至数字娱乐产业的创新实践。
以上内容由遇见数据集搜集并总结生成



