fma-small

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/minhqng/fma-small

下载链接

链接失效反馈

官方服务：

资源简介：

FMA-Small Log-Mel-Spectrograms 是一个用于音乐流派分类的预处理数据集，包含155,153个对数梅尔频谱图片段。该数据集基于FMA-Small原始音频数据（8,000首30秒的曲目），通过处理转换为128个梅尔频带×300个时间帧的频谱图表示（32kHz采样率，每段3秒音频，50%重叠）。数据集包含8种音乐流派标签（电子、实验、民谣、嘻哈、器乐、国际、流行、摇滚），并通过StratifiedGroupKFold按艺术家ID分层划分训练集（99,140样本）、验证集（24,807样本）和测试集（31,206样本），确保不同集合间无艺术家重叠。每个样本包含：梅尔频谱图数组（float32）、流派标签（0-7分类）、曲目ID、艺术家ID和流派名称字符串。该数据集特别适合需要直接使用频谱特征进行音频分类的研究，无需处理原始音频文件。

FMA-Small Log-Mel-Spectrograms is a preprocessed dataset for music genre classification, containing 155,153 log-mel spectrogram segments. Derived from the raw FMA-Small audio dataset consisting of 8,000 30-second tracks, it is converted via processing into spectrogram representations with 128 mel bands and 300 time frames (32 kHz sampling rate, 3-second audio segments with 50% overlap). The dataset features 8 music genre labels: Electronic, Experimental, Folk, Hip-Hop, Instrumental, International, Pop, and Rock. It employs StratifiedGroupKFold to split the data into training (99,140 samples), validation (24,807 samples), and test sets (31,206 samples) stratified by artist ID, ensuring no artist overlap across any of the splits. Each sample includes a mel-spectrogram array (float32), genre label (0-7 classification), track ID, artist ID, and genre name string. This dataset is particularly suitable for research that directly uses spectrogram features for audio classification, without requiring preprocessing of raw audio files.

创建时间：

2026-02-15

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，FMA-Small数据集以其精心设计的预处理流程而著称。该数据集源自FMA-Small原始音频集合，包含8000条时长30秒的MP3音轨。每条音轨首先经过解码并转换为单声道，随后统一重采样至32kHz。音频被分割为3秒的片段，并采用50%的重叠策略以增强数据覆盖。每个片段通过梅尔频谱图转换，具体参数为1024点FFT、320跳数以及128个梅尔频带，并应用Slaney归一化。最终，对梅尔频谱取对数并截取至300个时间帧，形成形状为(128, 300)的标准化对数梅尔频谱图表示。在构建过程中，静默或损坏的音轨与片段均被剔除，确保了数据质量。

特点

该数据集的核心特征在于其高度结构化的音频表示与严谨的数据划分策略。所有样本均以预计算的对数梅尔频谱图形式提供，维度统一为128个梅尔频带与300个时间帧，可直接输入深度学习模型进行训练，无需实时音频解码。数据集涵盖电子、实验、民谣、嘻哈、器乐、国际、流行和摇滚八种音乐流派，标签体系清晰完整。尤为关键的是，数据划分采用基于艺术家ID的分层分组交叉验证策略，确保没有任何艺术家的作品出现在多个分割中，从而有效防止了因艺术家风格一致性导致的数据泄露，提升了模型评估的可靠性。

使用方法

对于研究者而言，该数据集的使用极为便捷。通过Hugging Face的`datasets`库可直接加载，并灵活转换为PyTorch等深度学习框架的张量格式。数据已预分为训练、验证和测试三部分，用户可立即着手构建音乐流派分类模型。典型的流程包括加载数据集、设置数据格式、提取频谱图特征与对应流派标签。由于特征已标准化处理，模型训练可专注于架构设计与优化，无需额外的前处理步骤。该数据集为音频分类任务提供了即用型的高质量基准，显著加速了音乐信息检索领域的实验与研究进程。

背景与挑战

背景概述

音乐信息检索领域长期面临高质量、大规模标注音频数据稀缺的挑战，这制约了基于深度学习的音乐分析模型的发展。为应对此问题，瑞士洛桑联邦理工学院的研究团队于2017年推出了Free Music Archive（FMA）数据集，旨在为音乐分类、推荐及分析任务提供开源基准。其中，FMA-Small子集作为核心组成部分，包含了8,000条30秒的音频片段，覆盖电子、实验、民谣、嘻哈、器乐、国际、流行和摇滚八种音乐流派，其精心设计的艺术家分层划分策略有效防止了数据泄露，显著提升了模型评估的可靠性，对推动音乐自动分类技术的进步产生了深远影响。

当前挑战

该数据集致力于解决音乐流派自动分类这一核心问题，其挑战在于音乐流派本身具有主观性和模糊边界，同一曲目可能融合多种风格，使得清晰、一致的标注极为困难。在数据集构建过程中，挑战主要源于原始音频数据的预处理与特征工程：需将时域音频信号转换为具有判别性的对数梅尔频谱图表示，这一过程涉及采样率统一、静音及损坏片段剔除、频谱参数优化等多个复杂步骤，并需在保持音乐内容完整性的同时，确保生成的特征矩阵（128×300）能够高效支持后续的深度学习模型训练。

常用场景

经典使用场景

在音乐信息检索领域，fma-small数据集作为预处理的音频特征集合，其经典应用场景聚焦于音乐流派分类任务。该数据集提供了大量经过标准化的对数梅尔频谱图片段，研究者可直接将其输入深度学习模型，无需繁琐的音频解码与特征提取步骤，极大简化了实验流程。这种设计特别适用于探索卷积神经网络或循环神经网络在音频信号上的分类性能，为算法比较和模型优化提供了统一的基准平台。

解决学术问题

该数据集有效解决了音乐分析中常见的学术研究问题，尤其是针对小规模标注数据下的流派分类挑战。通过提供高质量、无艺术家数据泄露的标准化特征，它支持了跨艺术家泛化能力的研究，避免了因训练集与测试集包含相同艺术家而导致的性能高估。此外，其清晰的类别划分和预处理流程，为音乐特征表示学习、迁移学习及少样本学习等前沿方向提供了可靠的数据基础，推动了音乐信息检索领域的算法创新与理论进展。

衍生相关工作

围绕fma-small数据集，已衍生出一系列经典的学术工作与模型架构。许多研究以此为基准，探索了如卷积循环神经网络、注意力机制以及自监督学习在音乐流派分类中的有效性。部分工作进一步利用其艺术家分组策略，深入研究了领域自适应和泛化性问题。这些衍生研究不仅验证了数据集的实用价值，也促进了更鲁棒、高效的音频分类模型的诞生，为后续更大规模音乐数据集的构建与分析提供了方法论参考。

以上内容由遇见数据集搜集并总结生成