free-music-archive-full
收藏Hugging Face2024-09-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/benjamin-paine/free-music-archive-full
下载链接
链接失效反馈官方服务:
资源简介:
Free Music Archive - Full 数据集是一个适用于音乐信息检索(MIR)任务的综合音乐数据集。它包含105,024个未修剪长度的音频样本,涵盖16个不平衡的流派,总计8,104小时的音频。该数据集提供完整长度和高品质的音频、预计算的特征以及详细的元数据,包括曲目信息、用户数据、标签和文本传记。数据集采用多种Creative Commons许可证,并提供仅限于商业用途数据的配置。该数据集由Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst和Xavier Bresson创建,并在2017年国际音乐信息检索会议(ISMIR)上发布。
创建时间:
2024-09-05
原始信息汇总
Free Music Archive - Full 数据集概述
数据集基本信息
- 名称: Free Music Archive - Full
- 大小: 100K < n < 1M
- 任务类别:
- 音频到音频
- 音频分类
数据集配置
配置名称: commercial
- 特征:
audio: 音频数据title: 字符串url: 字符串artist: 字符串composer: 字符串lyricist: 字符串publisher: 字符串genres: 序列,包含164个音乐流派标签tags: 字符串序列released: 时间戳language: 字符串listens: 无符号64位整数artist_url: 字符串artist_website: 字符串album_title: 字符串album_url: 字符串license: 类别标签,包含34种不同的许可证类型copyright: 字符串explicit: 类别标签,表示是否包含显式内容instrumental: 类别标签,表示是否为纯音乐allow_commercial_use: 类别标签,表示是否允许商业使用allow_derivatives: 类别标签,表示是否允许衍生作品require_attribution: 类别标签,表示是否需要署名require_share_alike: 类别标签,表示是否需要相同方式共享
- 分割:
train: 包含8518个样本,总大小为6778480531.956字节
- 下载大小: 8111066311字节
- 数据集大小: 6778480531.956字节
配置名称: default
- 特征:
audio: 音频数据title: 字符串url: 字符串artist: 字符串composer: 字符串lyricist: 字符串publisher: 字符串genres: 序列,包含164个音乐流派标签tags: 字符串序列released: 时间戳language: 字符串listens: 无符号64位整数artist_url: 字符串artist_website: 字符串album_title: 字符串album_url: 字符串license: 类别标签,包含34种不同的许可证类型copyright: 字符串explicit: 类别标签,表示是否包含显式内容instrumental: 类别标签,表示是否为纯音乐allow_commercial_use: 类别标签,表示是否允许商业使用allow_derivatives: 类别标签,表示是否允许衍生作品require_attribution: 类别标签,表示是否需要署名require_share_alike: 类别标签,表示是否需要相同方式共享
- 分割:
train: 包含105024个样本,总大小为85231982003.464字节
- 下载大小: 100452185352字节
- 数据集大小: 85231982003.464字节
数据集配置文件
- commercial:
train:commercial/train-*
- default:
train:data/train-*
标签和许可证
- 音乐流派标签: 包含164个不同的音乐流派标签。
- 许可证类型: 包含34种不同的许可证类型,每个文件都附有其许可证信息。
数据集清理
- 173个文件因无法被
libsndfile / libmpg123读取而被移除。 - 1377个文件因许可证不明确或无法获取完整许可证文本而被移除。
许可证分布
- CC-BY-NC-SA 3.0: 2768.3小时 (34.16%)
- CC-BY-NC-ND 3.0: 2296.4小时 (28.34%)
- CC-BY-NC-ND 4.0: 1018.4小时 (12.57%)
- CC-BY-NC-SA 4.0: 533.2小时 (6.58%)
- CC-BY 4.0: 377.0小时 (4.65%)
- CC-BY-NC 3.0: 288.9小时 (3.56%)
搜集汇总
数据集介绍

构建方式
Free Music Archive (FMA) 数据集的构建基于大量来自不同艺术家的音乐作品,涵盖了16,341位艺术家和14,854张专辑的106,574首曲目。这些音乐作品均以Creative Commons许可发布,确保了数据的开放性和可访问性。数据集通过统一的音频编码格式(libmpg123)进行重新编码,以确保音频文件的一致性和可读性。此外,数据集还剔除了部分无法读取或版权不明确的文件,最终形成了包含106,199个音频片段的完整数据集。
特点
FMA数据集的特点在于其丰富的音乐多样性,涵盖了161种不同的音乐流派,提供了长达8,104小时的未剪辑音频。数据集不仅包含高质量的音频文件,还提供了丰富的元数据,如曲目标题、艺术家信息、专辑信息、流派标签、发布时间等。此外,数据集还包含了用户级别的元数据,如播放次数、艺术家网站链接等,为音乐信息检索(MIR)任务提供了全面的支持。
使用方法
FMA数据集适用于多种音乐信息检索任务,如音频分类、音频到音频的转换等。用户可以通过HuggingFace平台下载数据集的Parquet格式文件,文件大小约为593GB。数据集的使用方法包括加载音频文件、提取元数据、进行音频特征分析等。开发者可以根据需要选择特定的音频文件或元数据进行实验,数据集还提供了商业使用限制的配置选项,方便用户根据需求筛选数据。
背景与挑战
背景概述
Free Music Archive (FMA) 数据集由Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst和Xavier Bresson等研究人员于2017年推出,旨在为音乐信息检索(MIR)领域提供一个开放且易于访问的大规模音频数据集。该数据集包含了106,574首来自16,341位艺术家和14,854张专辑的音频文件,涵盖了161种音乐流派,总时长超过343天。FMA不仅提供了高质量的完整音频文件,还包含了预计算的特征、曲目和用户级别的元数据、标签以及自由文本信息,如艺术家传记。该数据集的发布极大地推动了MIR领域的研究,尤其是在特征学习和端到端学习任务中的应用。
当前挑战
FMA数据集在构建和应用过程中面临多重挑战。首先,数据集的构建过程中遇到了音频文件格式不一致、编码混杂等问题,导致部分文件无法读取或需要重新编码。其次,由于音频文件来自不同的艺术家和专辑,其版权和许可信息复杂多样,部分文件的许可信息不明确或无法获取,导致这些文件被排除在数据集之外。此外,FMA数据集在音乐流派分类任务中面临挑战,由于流派数量众多且分布不均衡,模型在识别和分类时容易受到数据不平衡的影响。最后,尽管FMA提供了丰富的元数据,但其标签和分类体系仍需进一步优化,以支持更精细的音乐分析和检索任务。
常用场景
经典使用场景
Free Music Archive (FMA) 数据集在音乐信息检索(MIR)领域中被广泛用于音乐分类、流派识别和音频特征提取等任务。其丰富的音频数据和详细的元数据为研究者提供了一个理想的实验平台,尤其是在音乐流派分类和音频信号处理方面。通过使用该数据集,研究者可以训练和评估各种机器学习模型,以提升音乐分类的准确性和效率。
实际应用
FMA 数据集在实际应用中具有广泛的用途,尤其是在音乐推荐系统和流媒体平台中。通过利用该数据集中的音频特征和元数据,开发者可以构建更加精准的音乐推荐算法,提升用户体验。此外,该数据集还可用于音乐版权管理和音乐内容分析,帮助音乐平台更好地理解和管理其音频库。
衍生相关工作
FMA 数据集自发布以来,已经催生了大量相关研究工作。例如,基于该数据集的音乐流派分类模型在 ISMIR 等国际会议上得到了广泛讨论。此外,许多研究利用 FMA 数据集进行音频特征提取和音乐情感分析,进一步推动了音乐信息检索技术的发展。这些工作不仅验证了数据集的实用性,也为未来的研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



