FMA (Free Music Archive)

OpenDataLab2026-03-29 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/FMA

下载链接

链接失效反馈

资源简介：

免费音乐档案 (FMA) 是一个大型数据集，用于评估音乐信息检索中的多个任务。它包含 343 天的音频，来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑，按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能，以及轨道和用户级元数据、标签和自由格式的文本，例如传记。作者定义了四个子集：Full：完整数据集，Large：音频限制为 30 秒的完整数据集从轨道中间提取的剪辑（如果短于 30 秒，则为整个轨道），Medium：选择25,000 个具有单一根流派的 30 年代剪辑，小：一个平衡的子集，包含 8,000 个 30 年代剪辑，其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集（80/10/10）使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源：FMA：音乐分析数据集

Free Music Archive (FMA) is a large-scale dataset for evaluating multiple tasks in music information retrieval. It contains 343 days of audio, 106,574 tracks from 16,341 artists and 14,854 albums, organized under a hierarchical classification of 161 genres. It provides full-length and high-quality audio, pre-computed features, as well as track- and user-level metadata, tags, and free-form text such as biographies. The authors define four subsets: 1. Full: The complete original dataset 2. Large: The complete dataset with audio restricted to 30-second clips extracted from the middle of each track (the full track if shorter than 30 seconds) 3. Medium: A curated subset of 25,000 30-second clips with a single root genre 4. Small: A balanced subset of 8,000 30-second clips, with 1,000 clips per each of 8 root genres. Official train/validation/test splits (80/10/10) are provided using stratified sampling to preserve the track percentage of each genre. Tracks from the same artist are only included in a single split. Source: FMA: A Dataset for Music Analysis

提供机构：

OpenDataLab

创建时间：

2022-05-23

AI搜集汇总

数据集介绍

构建方式

FMA数据集的构建基于Free Music Archive（FMA）平台，该平台是一个开放的音乐库，提供了大量免费的音乐资源。数据集的构建过程包括从FMA平台下载音乐文件，并对其进行元数据标注，如音乐风格、艺术家信息、发行年份等。此外，数据集还包含了音频特征提取，如频谱图、节奏特征等，以支持音乐信息检索和音乐分析任务。

特点

FMA数据集以其丰富的音乐多样性和高质量的元数据著称。该数据集包含了超过10万首音乐作品，涵盖了800多种不同的音乐风格。其元数据详细且准确，为研究者提供了深入分析音乐特征的可能性。此外，数据集的开放性和免费使用政策，使其成为音乐信息处理领域的重要资源。

使用方法

FMA数据集适用于多种音乐信息处理任务，包括音乐分类、音乐推荐系统和音乐情感分析等。研究者可以通过访问FMA的官方网站下载数据集，并使用Python等编程语言进行数据处理和分析。数据集的结构化设计使得用户可以轻松提取所需的音频特征和元数据，从而进行定制化的研究。

背景与挑战

背景概述

FMA（Free Music Archive）数据集是由纽约大学音乐与音频研究实验室（Music and Audio Research Laboratory, NYU）于2017年创建的，旨在为音乐信息检索（Music Information Retrieval, MIR）领域的研究提供一个开放且多样化的资源。该数据集包含了超过10万首歌曲，涵盖了多种音乐风格和流派，为研究人员提供了一个丰富的音乐数据资源。FMA的创建不仅推动了音乐分类、情感分析和自动音乐推荐等研究的发展，还为音乐版权和开放数据的使用提供了新的视角。

当前挑战

尽管FMA数据集在音乐信息检索领域具有重要意义，但其构建和使用过程中仍面临诸多挑战。首先，数据集的多样性带来了分类和标注的复杂性，不同音乐风格和流派的准确分类需要高度专业化的知识。其次，数据集的规模庞大，处理和分析这些数据需要高效的计算资源和算法。此外，音乐版权问题也是FMA数据集面临的一大挑战，如何在保证数据开放性的同时遵守版权法规，是研究人员和机构需要持续关注的问题。

发展历史

创建时间与更新

FMA数据集创建于2017年，由Kirell Benzi、Paul Lamere、Michaël Defferrard、Pierre Vandergheynst和Xavier Bresson共同发布。该数据集自发布以来，未有官方更新记录，但其内容和结构在音乐信息检索领域持续发挥重要作用。

重要里程碑

FMA数据集的发布标志着音乐信息检索领域的一个重要里程碑。它包含了超过10万首歌曲，涵盖了多种音乐风格和流派，为研究人员提供了丰富的数据资源。该数据集的多样性和高质量音频文件使其成为音乐分类、推荐系统和音频特征提取等研究的热门选择。此外，FMA数据集的开源性质和免费访问权限进一步推动了学术界和工业界的研究与应用。

当前发展情况

FMA数据集自发布以来，已成为音乐信息检索领域的重要基石。其丰富的音频数据和多样的音乐风格为研究人员提供了广阔的实验平台，推动了音乐分类、情感分析和推荐系统等方向的创新。随着深度学习和人工智能技术的发展，FMA数据集的应用范围不断扩大，不仅在学术研究中占据重要地位，也在音乐产业中展现出潜在的商业价值。未来，随着更多研究者和开发者的参与，FMA数据集有望继续引领音乐信息检索领域的发展，为音乐科技的进步做出更大贡献。

发展历程

FMA数据集的原始数据来源Free Music Archive网站正式上线，旨在提供一个开放的音乐资源库。
2009年
FMA数据集首次在学术界发表，由Defferrard等人提出，并作为音乐信息检索研究的重要资源。
2017年
FMA数据集在多个音乐信息检索和机器学习研究中得到广泛应用，成为该领域的重要基准数据集。
2018年

常用场景

经典使用场景

在音乐信息检索领域，FMA（Free Music Archive）数据集被广泛用于音乐分类和音乐情感分析等经典任务。该数据集包含了大量多样化的音乐片段，涵盖了多种风格和流派，为研究人员提供了丰富的实验材料。通过分析这些音乐片段的音频特征，研究者能够开发出更为精准的音乐分类算法，从而推动音乐信息检索技术的发展。

衍生相关工作

FMA数据集的发布催生了一系列相关研究工作，特别是在音乐信息检索和机器学习领域。例如，有研究者利用FMA数据集开发了基于深度学习的音乐分类模型，显著提升了分类准确率。此外，FMA数据集还被用于验证各种音乐情感分析算法的有效性，推动了情感计算技术的发展。这些衍生工作不仅丰富了学术研究，也为实际应用提供了技术支持。

数据集最近研究