free-music-archive-large|音乐分析数据集|开源数据集数据集

huggingface2024-09-03 更新2024-12-12 收录

音乐分析

开源数据集

下载链接：

https://huggingface.co/datasets/benjamin-paine/free-music-archive-large

下载链接

链接失效反馈

资源简介：

该数据集是一个用于音乐分析的开源数据集，包含917 GiB和343天的Creative Commons许可音频，来自106,574首曲目、16,341位艺术家和14,854张专辑，按161种音乐流派的层次结构排列。数据集提供完整的、高质量的音频，预计算的特征，以及曲目和用户级别的元数据、标签和自由文本形式的传记。数据集分为商业用途和默认用途两种配置，每种配置具有不同的规模和示例数量。数据集的每个文件都附有其特定的许可证详细信息，主要基于Creative Commons许可证。

创建时间：

2024-09-02

原始信息汇总

数据集概述

基本信息

数据集名称: Free Music Archive - Large
数据集大小: 100K<n<1M
任务类别:
- 音频到音频
- 音频分类

数据集配置

配置名称: commercial

特征:
- audio: 音频数据
- title: 字符串
- url: 字符串
- artist: 字符串
- composer: 字符串
- lyricist: 字符串
- publisher: 字符串
- genres: 序列，包含164个分类标签
- tags: 字符串序列
- released: 时间戳
- language: 字符串
- listens: 无符号64位整数
- artist_url: 字符串
- artist_website: 字符串
- album_title: 字符串
- album_url: 字符串
- license: 分类标签，包含33种许可证
- copyright: 字符串
- explicit: 分类标签，是否包含明确内容
- instrumental: 分类标签，是否为器乐
- allow_commercial_use: 分类标签，是否允许商业使用
- allow_derivatives: 分类标签，是否允许衍生作品
- require_attribution: 分类标签，是否需要署名
- require_share_alike: 分类标签，是否需要相同方式共享
分割:
- train: 8380个样本，6730446047.6字节
下载大小: 7974179100字节
数据集大小: 6730446047.6字节

配置名称: default

特征:
- audio: 音频数据
- title: 字符串
- url: 字符串
- artist: 字符串
- composer: 字符串
- lyricist: 字符串
- publisher: 字符串
- genres: 序列，包含164个分类标签
- tags: 字符串序列
- released: 时间戳
- language: 字符串
- listens: 无符号64位整数
- artist_url: 字符串
- artist_website: 字符串
- album_title: 字符串
- album_url: 字符串
- license: 分类标签，包含33种许可证
- copyright: 字符串
- explicit: 分类标签，是否包含明确内容
- instrumental: 分类标签，是否为器乐
- allow_commercial_use: 分类标签，是否允许商业使用
- allow_derivatives: 分类标签，是否允许衍生作品
- require_attribution: 分类标签，是否需要署名
- require_share_alike: 分类标签，是否需要相同方式共享
分割:
- train: 105033个样本，85239274784.388字节
下载大小: 100325400918字节
数据集大小: 85239274784.388字节

许可证信息

数据集代码库: MIT许可证
元数据: CC-BY 4.0许可证
音频文件: 多种Creative Commons许可证，每个文件附带其许可证详情

数据集详情

总样本数: 105,024个
音频时长: 30秒每个样本
总时长: 869.2小时
分类: 16个不平衡的流派

数据集清理

不可读文件: 173个文件被移除
许可证不明确文件: 1377个文件被移除

AI搜集汇总

数据集介绍

构建方式

Free Music Archive (FMA) 数据集的构建基于一个开放且易于访问的音乐资源库，旨在为音乐信息检索（MIR）领域的研究提供支持。该数据集包含了来自16,341位艺术家的106,574首音乐曲目，涵盖了161种音乐流派。每首曲目均以30秒的片段形式提供，总计869.2小时的音频数据。数据集的构建过程中，剔除了173个无法读取的音频文件以及1377个许可证不明确的文件，确保了数据的可用性和合法性。

特点

FMA数据集的特点在于其丰富的音乐流派分类和详细的元数据信息。数据集不仅提供了高质量的音频文件，还包含了曲目标题、艺术家、作曲家、歌词作者、出版商等详细信息。此外，每首曲目都附带了流派标签、许可证信息以及用户级别的元数据，如播放次数和语言信息。这些特征使得FMA数据集成为音乐分类、流派识别和音频特征提取等任务的理想选择。

使用方法

FMA数据集的使用方法多样，适用于多种音乐信息检索任务。研究人员可以通过加载音频文件及其元数据进行音乐流派分类、音频特征提取或音频生成等实验。数据集提供了预定义的训练/验证/测试划分，便于模型训练和评估。此外，用户可以根据许可证信息筛选出适合商业用途的曲目，确保实验的合规性。代码和示例可在GitHub上获取，便于快速上手和复现实验结果。

背景与挑战

背景概述

Free Music Archive (FMA) 数据集由Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst和Xavier Bresson等研究人员于2017年创建，旨在为音乐信息检索（MIR）领域提供一个开放且易于访问的大规模音频数据集。该数据集包含106,574首来自16,341位艺术家和14,854张专辑的音频，涵盖了161种音乐流派，总容量达917 GiB，时长343天。FMA不仅提供了完整的音频文件，还包含了预计算的特征、元数据、标签以及艺术家传记等丰富信息。该数据集的发布极大地推动了MIR领域的研究，尤其是在音乐流派识别、音频分类和音频生成等任务中，为学术界和工业界提供了宝贵的资源。

当前挑战

FMA数据集在构建和应用过程中面临多重挑战。首先，音乐流派分类的复杂性使得模型在区分相似流派时表现不佳，尤其是对于跨流派音乐或混合风格的音乐。其次，数据集中存在大量不平衡的流派分布，某些流派的样本数量远少于其他流派，这可能导致模型在训练过程中偏向于样本较多的流派。此外，音频文件的版权问题也是构建过程中的一大挑战，部分文件因版权不明确或无法获取完整许可而被移除，影响了数据集的完整性。最后，音频数据的预处理和特征提取需要大量的计算资源，尤其是在处理高采样率和长时音频时，计算复杂度显著增加。

常用场景

经典使用场景

Free Music Archive (FMA) 数据集在音乐信息检索（MIR）领域中具有广泛的应用，尤其是在音乐分类和音频特征提取任务中表现突出。该数据集包含了超过10万首音乐曲目，涵盖了161种不同的音乐流派，为研究者提供了一个丰富的音频数据源。通过FMA，研究者可以训练和评估音乐流派识别模型，探索音频信号的频谱特征，以及进行音乐推荐系统的开发。

实际应用

在实际应用中，FMA数据集被广泛用于音乐流媒体平台的推荐系统开发。通过分析用户的听歌历史和音乐特征，平台可以为用户提供个性化的音乐推荐。此外，FMA还被用于音乐版权管理，帮助识别和分类音乐作品，确保其合法使用。在教育和研究领域，FMA为音乐学和计算机科学的交叉研究提供了宝贵的数据资源。

衍生相关工作

FMA数据集自发布以来，已经衍生出多项经典研究工作。例如，基于FMA的音乐流派分类挑战赛（FMA Challenge）吸引了全球研究者的广泛参与，推动了深度学习在音乐分类中的应用。此外，许多研究利用FMA数据集开发了新的音频特征提取算法和音乐推荐系统，进一步拓展了MIR领域的研究边界。这些工作不仅提升了音乐分类的准确性，还为音乐生成和音频信号处理提供了新的思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集