five

Free Music Archive (FMA)

收藏
arXiv2017-09-06 更新2024-06-21 收录
下载链接:
https://github.com/mdeff/fma
下载链接
链接失效反馈
官方服务:
资源简介:
Free Music Archive (FMA) 是一个由瑞士洛桑联邦理工学院和新加坡南洋理工大学创建的大型音乐分析数据集,包含106,574条来自16,341位艺术家的音乐曲目,总数据量达917 GiB,涵盖161种音乐类型。数据集通过Creative Commons许可证授权,提供完整的音频文件和高质量的预计算特征,以及详细的曲目和用户级元数据。FMA旨在支持音乐信息检索(MIR)领域的多种任务,如音乐分类、自动标注和音乐结构分析等,特别适用于深度学习模型的训练和评估。

Free Music Archive (FMA) is a large-scale music analysis dataset developed by École Polytechnique Fédérale de Lausanne in Switzerland and Nanyang Technological University in Singapore. It contains 106,574 music tracks from 16,341 artists, with a total data volume of 917 GiB and coverage of 161 music genres. Licensed under Creative Commons licenses, the dataset provides complete audio files, high-quality pre-computed features, as well as detailed track-level and user-level metadata. FMA is designed to support various tasks in the field of Music Information Retrieval (MIR), such as music classification, automatic annotation, music structure analysis and etc., and is particularly suitable for the training and evaluation of deep learning models.
提供机构:
瑞士洛桑联邦理工学院和新加坡南洋理工大学
创建时间:
2016-12-06
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,大规模、高质量且易于获取的数据集长期缺位,制约了数据驱动模型的深入发展。Free Music Archive (FMA) 数据集应运而生,其构建依托于同名在线音乐库,该库由美国历史最悠久的自由形式广播电台 WFMU 主导,秉承 Creative Commons 许可精神。研究者于2017年4月通过API收集了155,320个候选曲目,经过去重、剔除无效链接及版权限制后,最终保留了106,574首完整曲目。所有音频以MP3格式下载,采样率多为44,100 Hz,平均比特率263 kbit/s。同时,系统化整理了曲目、专辑、艺术家三级元数据,涵盖标题、流派层级、播放次数、标签及传记等丰富信息,并预先提取了基于librosa库的518维声学特征,以降低后续研究门槛。
特点
FMA数据集的核心特点在于其规模与开放性的完美平衡。它提供了917 GiB、总计343天的全长度高保真音频,涵盖16,341位艺术家和14,854张专辑,规模远超同类可获取音频的数据集。其流派体系尤为独特,包含161个细粒度流派,并构建了自底向上的层级树状结构,支持从顶层到子流派的多元标注。数据来源于艺术家自标注,虽存在一定的标注噪声,却更贴近真实世界的多样性。此外,数据集内建了四种递进子集(Small、Medium、Large、Full),分别适应从平衡小样本到全量不平衡样本的不同研究需求,并提供了严格的80/10/10训练/验证/测试划分,且通过艺术家过滤确保跨集独立性,有效避免了艺术家或专辑效应带来的评估偏差。
使用方法
FMA数据集的设计初衷是服务于多元化的音乐信息检索任务,使用方法灵活且高效。用户可通过下载压缩包直接获取结构化元数据(tracks.csv)与MP3音频,无需网络爬取。对于计算资源有限的研究者,可选用预裁剪为30秒片段的Large或Medium子集,或直接利用附带的518维特征向量进行基线实验。数据集特别适用于音乐流派识别任务,支持从单标签分类到多标签、子层级预测的递进式挑战。同时,其丰富的元数据也为艺术家识别、年代预测、自动标注及无监督聚类等任务提供了理想平台。配合官方提供的Jupyter Notebook示例代码与特征提取脚本,研究者可快速复现基线结果,并在此基础上扩展深度学习模型,如卷积或循环神经网络,直接从波形中学习表征,从而规避手工特征工程的局限。
背景与挑战
背景概述
音乐信息检索(MIR)领域长期受限于大规模、高质量且易于获取的音频数据集的匮乏,这一瓶颈严重制约了深度学习等数据驱动模型在该领域的应用与发展。为突破这一困境,瑞士洛桑联邦理工学院(EPFL)的Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst以及南洋理工大学的Xavier Bresson于2017年共同发布了Free Music Archive(FMA)数据集。该数据集源自同名在线音乐档案库,由美国历史最悠久的自由形式广播电台WFMU主持维护,收录了106,574首采用Creative Commons许可的完整曲目,涵盖16,341位艺术家、14,854张专辑,并按照161种流派构建了层级化分类体系。FMA不仅提供了917 GiB的高质量音频(320 kbps MP3编码)和预计算特征,还附带了丰富的元数据、用户标签及艺术家传记等文本信息,其规模与多样性在同类开源音频数据集中首屈一指,为MIR领域的可重复性研究与算法基准测试奠定了坚实基础。
当前挑战
FMA数据集所应对的核心挑战源于MIR领域长期存在的多重困境。首先,在领域问题层面,音乐流派识别(MGR)作为MIR的关键任务,长期受限于数据集规模偏小、标注噪声大以及版权壁垒森严等问题。此前广泛使用的GTZAN数据集仅包含1,000首30秒音频片段,且存在标签错误、艺术家效应等缺陷,而Million Song Dataset等大规模数据集又不直接提供音频内容。FMA通过提供完整、高质量且可自由分发的音频,使研究者得以规避特征工程,直接开展端到端学习,从而推动MGR从浅层模型向深度学习范式的跨越。其次,在构建过程中,团队面临了严峻的工程挑战:需从155,320个曲目ID中筛选出109,727个有效条目,剔除因版权限制无法分发的2,616首曲目,并解决180个音频下载失败、286个剪辑异常等技术障碍。此外,如何平衡数据集的真实性与可用性亦是一大难题——团队选择保留长尾流派、超长曲目等多源噪声,以模拟真实世界的分布特性,同时通过设计分层子集(Small/Medium/Large/Full)来适配不同计算资源的研究需求,并引入艺术家过滤机制以避免训练与测试集间的数据泄露。
常用场景
经典使用场景
在音乐信息检索(MIR)领域,Free Music Archive (FMA) 数据集因其大规模、高质量音频和丰富的元数据,成为音乐分类任务的首选基准。最经典的使用场景是音乐流派识别(Music Genre Recognition, MGR),研究者可基于其层次化的161种流派标签,进行单标签或多标签分类。此外,FMA 还广泛用于艺术家识别、年代预测和自动标注等任务,其提供的完整音频和预计算特征(如MFCC、色度特征)使得研究者能够直接应用深度学习模型,从原始波形中端到端学习,避免手工特征工程的局限。
实际应用
在实际应用中,FMA 数据集被广泛用于音乐推荐系统、自动播放列表生成和音乐库管理工具的开发。例如,基于FMA训练的流派分类模型可集成至流媒体平台,帮助用户按风格浏览海量曲库;自动标注技术则能生成描述音乐情绪、乐器和风格的标签,将音乐检索问题转化为文本检索问题,提升用户体验。此外,FMA 的开放许可特性使其成为教育场景的理想资源,学生和研究人员可合法使用全量音频进行音乐分析、结构解析和算法原型验证,降低了MIR领域的入门门槛。
衍生相关工作
FMA 数据集催生了多项经典研究工作。在流派识别方面,研究者基于其层次标签开发了多任务学习框架,利用子流派与顶级流派的关系提升分类精度。在特征学习领域,卷积神经网络(CNN)和循环神经网络(RNN)被直接应用于FMA的原始波形,验证了端到端学习在音乐分析中的有效性。此外,FMA 还被用于跨数据集迁移学习研究,例如将预训练模型迁移至MagnaTagATune等小型数据集。其预计算特征库(librosa提取的518维特征)也成为对比实验的标准基线,推动了音乐信息检索社区对可重复性和开放基准的重视。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作