five

confit/gtzan-demo

收藏
Hugging Face2024-03-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/confit/gtzan-demo
下载链接
链接失效反馈
官方服务:
资源简介:
GTZAN音乐流派分类数据集包含10个类别的音乐片段,每个类别有100个30秒的录音片段。该数据集采用了Kereliuk等人(2015)提出的fault-filtered分区版本,包含443个训练样本、197个验证样本和290个测试样本。数据集的特征包括音频文件、流派和标签,音频文件的采样率为22050Hz。数据集的任务类别是音频分类,标签包括blues、classical、country、disco、hiphop、jazz、metal、pop、reggae和rock。

GTZAN音乐流派分类数据集包含10个类别的音乐片段,每个类别有100个30秒的录音片段。该数据集采用了Kereliuk等人(2015)提出的fault-filtered分区版本,包含443个训练样本、197个验证样本和290个测试样本。数据集的特征包括音频文件、流派和标签,音频文件的采样率为22050Hz。数据集的任务类别是音频分类,标签包括blues、classical、country、disco、hiphop、jazz、metal、pop、reggae和rock。
提供机构:
confit
原始信息汇总

GTZAN Music Genre Classification 数据集概述

数据集信息

特征

  • 音频
    • 采样率: 22050 Hz
  • 流派
    • 数据类型: 字符串
  • 标签
    • 类别标签:
      • 0: blues
      • 1: classical
      • 2: country
      • 3: disco
      • 4: hiphop
      • 5: jazz
      • 6: metal
      • 7: pop
      • 8: reggae
      • 9: rock

数据分割

  • 训练集
    • 字节数: 586664927
    • 样本数: 443
  • 验证集
    • 字节数: 260793810
    • 样本数: 197
  • 测试集
    • 字节数: 383984112
    • 样本数: 290

数据大小

  • 下载大小: 1230811404 字节
  • 数据集大小: 1231442849 字节

配置

  • 默认配置
    • 数据文件路径:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*

任务类别

  • 音频分类

标签

  • 音频
  • 多类别
  • 音乐
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,GTZAN数据集作为经典基准,其构建过程体现了严谨的学术规范。该数据集最初由Tzanetakis与Cook于2002年提出,收录了涵盖布鲁斯、古典、乡村等十个流派的音频片段,每个流派包含100段30秒的录音摘录。本版本遵循Kereliuk等人2015年的研究,采用了经过人工筛选的“故障过滤”划分方案,旨在排除原始数据中可能存在的重复或错误样本,从而构建出包含443个训练样本、197个验证样本及290个测试样本的高质量子集,确保了数据划分的可靠性与评估的公正性。
使用方法
对于研究人员而言,GTZAN数据集的使用流程高效且标准化。用户可通过Hugging Face平台直接加载数据集,其已预置训练集、验证集和测试集的标准划分,便于进行模型训练、超参数调优与性能评估。在具体应用中,开发者可调用音频特征提取工具处理‘audio’字段,并结合‘genre’或‘label’字段进行有监督学习。该数据集主要服务于音频分类任务,是评估深度学习模型在音乐流派识别上泛化能力的核心工具,相关研究成果常引用其提供的标准划分以确保可比性。
背景与挑战
背景概述
GTZAN数据集由George Tzanetakis与Perry Cook于2002年创建,是音乐信息检索领域最具影响力的公开数据集之一。该数据集旨在解决音乐流派自动分类这一核心研究问题,涵盖了布鲁斯、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼和摇滚十种流派,每种流派包含100段30秒的音频片段。作为该领域的基准数据集,GTZAN极大地推动了音频信号处理与机器学习在音乐分析中的应用,为后续众多研究提供了重要的评估基础。
当前挑战
在音乐流派分类任务中,GTZAN数据集面临流派间声学特征重叠的固有挑战,例如摇滚与金属流派在节奏和音色上具有高度相似性,这导致分类模型容易产生混淆。数据集构建过程中,原始版本存在音频重复与标签错误等问题,尽管后续研究如Kereliuk等人提出了经过人工筛选的‘故障过滤’版本以提升数据质量,但样本量相对有限且音频多样性不足,仍制约着深度学习模型的泛化能力与鲁棒性评估。
常用场景
经典使用场景
在音乐信息检索领域,GTZAN数据集作为基准资源,常被用于音乐流派分类任务。研究者利用其包含的十种流派音频片段,构建并评估机器学习模型,特别是深度学习架构,以自动识别音乐风格。这一过程不仅验证了特征提取方法的有效性,还推动了音频信号处理技术的演进,成为该领域算法性能比较的黄金标准。
解决学术问题
GTZAN数据集有效解决了音乐流派自动分类中的核心学术挑战,如音频特征表示学习与跨流派区分性建模。它帮助研究者探索时序模式识别、频谱分析以及对抗性样本鲁棒性等问题,深化了对音乐语义结构的理解。其存在显著促进了音乐信息检索领域的理论发展,为后续研究提供了可复现的实验基础。
实际应用
在实际应用中,GTZAN数据集支撑了音乐流媒体平台的智能推荐系统,通过精准流派分类增强个性化体验。它亦服务于数字音乐库的自动化组织,辅助版权管理与内容标记。此外,该数据集在音乐教育工具开发中发挥作用,帮助学习者系统辨识不同风格,展现了其跨行业的实用价值。
数据集最近研究
最新研究方向
在音乐信息检索领域,GTZAN数据集作为经典基准,持续推动着音频分类技术的演进。当前研究聚焦于利用深度神经网络,特别是卷积神经网络与Transformer架构的融合,以提升对音乐流派细微特征的捕捉能力。前沿探索涉及对抗性样本的生成与防御机制,旨在增强模型在复杂音频环境下的鲁棒性。同时,跨模态学习成为热点,通过结合音频信号与文本标签或视觉信息,实现更丰富的音乐语义理解。这些进展不仅优化了自动音乐分类的精度,也为音乐推荐系统与创意生成应用奠定了技术基础,彰显了数据集在推动人工智能与艺术交叉创新中的持久影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作