naorm/gtzan-encoded

Name: naorm/gtzan-encoded
Creator: naorm
Published: 2023-09-27 13:04:21
License: 暂无描述

Hugging Face2023-09-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/naorm/gtzan-encoded

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: label dtype: class_label: names: '0': blues '1': classical '2': country '3': disco '4': hiphop '5': jazz '6': metal '7': pop '8': reggae '9': rock - name: input_values sequence: float32 - name: attention_mask sequence: int32 splits: - name: train num_bytes: 3452159816 num_examples: 899 - name: test num_bytes: 384000696 num_examples: 100 download_size: 1923103923 dataset_size: 3836160512 --- # Dataset Card for "gtzan-encoded" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 划分集：train（训练集），路径：data/train-* - 划分集：test（测试集），路径：data/test-* 数据集信息：特征： - 名称：label（标签），数据类型： class_label（类别标签）：类别映射： '0'：blues（布鲁斯） '1'：classical（古典乐） '2'：country（乡村音乐） '3'：disco（迪斯科） '4'：hiphop（嘻哈） '5'：jazz（爵士乐） '6'：metal（金属乐） '7'：pop（流行乐） '8'：reggae（雷鬼） '9'：rock（摇滚乐） - 名称：input_values（输入值），序列类型，数据类型：float32 - 名称：attention_mask（注意力掩码），序列类型，数据类型：int32 划分集详情： - 名称：train（训练集），字节大小：3452159816，样本数量：899 - 名称：test（测试集），字节大小：384000696，样本数量：100 下载大小：1923103923，数据集总大小：3836160512 --- # 「gtzan-encoded」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

naorm

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 测试集: data/test-*

数据集信息

特征:
- label:
  - 数据类型: class_label
  - 类别名称:
    - 0: blues
    - 1: classical
    - 2: country
    - 3: disco
    - 4: hiphop
    - 5: jazz
    - 6: metal
    - 7: pop
    - 8: reggae
    - 9: rock
- input_values:
  - 数据类型: sequence of float32
- attention_mask:
  - 数据类型: sequence of int32
数据分割:
- 训练集:
  - 字节数: 3452159816
  - 样本数: 899
- 测试集:
  - 字节数: 384000696
  - 样本数: 100
下载大小: 1923103923
数据集大小: 3836160512

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，GTZAN数据集作为经典的音乐流派分类基准，其编码版本gtzan-encoded通过现代音频处理技术进行了重构。该数据集源自原始的GTZAN音频集合，经过特征提取与序列化处理，将每段30秒的音乐片段转换为适合深度学习模型输入的数值表示。构建过程中，音频信号被预处理为梅尔频谱图或类似特征，进而编码为浮点数序列，并配以注意力掩码以支持变长序列处理。数据划分遵循原始GTZAN的标准分割，包含训练集与测试集，确保了评估的公正性与可复现性。

特点

gtzan-encoded数据集的核心特点在于其结构化的特征表示，它将音频内容抽象为连续的数值向量，极大简化了模型输入的处理流程。数据集涵盖十种音乐流派，包括布鲁斯、古典、乡村等，每个样本均包含标签、输入值序列及注意力掩码，支持端到端的分类任务。输入值序列以浮点数组形式存储音频特征，注意力掩码则标识有效数据范围，适用于Transformer等现代神经网络架构。数据规模适中，训练集含899个样本，测试集含100个样本，平衡了计算效率与模型泛化需求。

使用方法

使用gtzan-encoded数据集时，研究者可直接加载预处理的特征数据，无需额外音频信号处理步骤，显著降低了实验复杂度。数据集以标准格式存储于HuggingFace平台，通过datasets库即可便捷访问，支持流式加载与分批处理。在机器学习流程中，输入值序列可直接馈入模型进行训练或推理，注意力掩码确保序列操作的准确性。该数据集适用于音乐流派分类、音频表示学习等任务，为比较不同算法性能提供了统一基准，同时其编码格式便于集成到现有深度学习框架中。

背景与挑战

背景概述

GTZAN数据集作为音乐信息检索领域的基石，由George Tzanetakis与Perry Cook于2002年共同创建，旨在为音乐流派自动分类提供标准化的评估基准。该数据集收录了涵盖十种流派的1000个音频片段，每段时长30秒，采样率为22050Hz，其结构化的设计极大地推动了音频信号处理与机器学习在音乐分析中的应用。GTZAN的广泛采用不仅促进了流派分类算法的比较与优化，还为后续的音乐特征提取、深度学习模型的发展奠定了实证基础，成为该领域研究不可或缺的资源。

当前挑战

GTZAN数据集在解决音乐流派分类问题时，面临流派间声学特征重叠的固有挑战，例如摇滚与金属的频谱相似性，这增加了模型区分边界的难度。在构建过程中，数据集因规模有限且样本分布不均，可能导致模型过拟合或泛化能力不足；同时，原始音频的编码转换——如本数据集中的特征提取与注意力掩码生成——需平衡计算效率与信息保留，以避免引入偏差或损失关键时序信息。这些因素共同构成了数据驱动方法在音乐分析中的核心障碍。

常用场景

经典使用场景

在音乐信息检索领域，GTZAN-encoded数据集作为音频分类任务的基准资源，其经典使用场景集中于音乐流派自动识别。该数据集将原始音频信号编码为特征向量，便于深度学习模型直接处理，研究者通常利用卷积神经网络或Transformer架构，对输入特征进行端到端的训练与评估，以探索音乐信号的深层语义表示。

解决学术问题

GTZAN-encoded数据集有效解决了音乐流派分类中特征工程复杂、数据标准化不足的学术难题。通过提供预处理的音频特征，它降低了模型设计的门槛，促进了跨领域比较，推动了音乐自动标注、音频内容理解等研究方向的发展，对计算音乐学与信号处理领域的理论深化具有显著意义。

衍生相关工作

围绕GTZAN-encoded数据集，衍生出多项经典研究工作，包括基于注意力机制的流派分类模型、跨域迁移学习框架以及数据增强策略的探索。这些工作不仅优化了分类性能，还拓展了数据集在少样本学习、异常检测等前沿课题中的应用，持续丰富着音乐计算的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集