five

free-music-archive-large|音乐分析数据集|开源数据集数据集

收藏
huggingface2024-09-03 更新2024-12-12 收录
音乐分析
开源数据集
下载链接:
https://huggingface.co/datasets/benjamin-paine/free-music-archive-large
下载链接
链接失效反馈
资源简介:
该数据集是一个用于音乐分析的开源数据集,包含917 GiB和343天的Creative Commons许可音频,来自106,574首曲目、16,341位艺术家和14,854张专辑,按161种音乐流派的层次结构排列。数据集提供完整的、高质量的音频,预计算的特征,以及曲目和用户级别的元数据、标签和自由文本形式的传记。数据集分为商业用途和默认用途两种配置,每种配置具有不同的规模和示例数量。数据集的每个文件都附有其特定的许可证详细信息,主要基于Creative Commons许可证。
创建时间:
2024-09-02
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Free Music Archive - Large
  • 数据集大小: 100K<n<1M
  • 任务类别:
    • 音频到音频
    • 音频分类

数据集配置

配置名称: commercial

  • 特征:
    • audio: 音频数据
    • title: 字符串
    • url: 字符串
    • artist: 字符串
    • composer: 字符串
    • lyricist: 字符串
    • publisher: 字符串
    • genres: 序列,包含164个分类标签
    • tags: 字符串序列
    • released: 时间戳
    • language: 字符串
    • listens: 无符号64位整数
    • artist_url: 字符串
    • artist_website: 字符串
    • album_title: 字符串
    • album_url: 字符串
    • license: 分类标签,包含33种许可证
    • copyright: 字符串
    • explicit: 分类标签,是否包含明确内容
    • instrumental: 分类标签,是否为器乐
    • allow_commercial_use: 分类标签,是否允许商业使用
    • allow_derivatives: 分类标签,是否允许衍生作品
    • require_attribution: 分类标签,是否需要署名
    • require_share_alike: 分类标签,是否需要相同方式共享
  • 分割:
    • train: 8380个样本,6730446047.6字节
  • 下载大小: 7974179100字节
  • 数据集大小: 6730446047.6字节

配置名称: default

  • 特征:
    • audio: 音频数据
    • title: 字符串
    • url: 字符串
    • artist: 字符串
    • composer: 字符串
    • lyricist: 字符串
    • publisher: 字符串
    • genres: 序列,包含164个分类标签
    • tags: 字符串序列
    • released: 时间戳
    • language: 字符串
    • listens: 无符号64位整数
    • artist_url: 字符串
    • artist_website: 字符串
    • album_title: 字符串
    • album_url: 字符串
    • license: 分类标签,包含33种许可证
    • copyright: 字符串
    • explicit: 分类标签,是否包含明确内容
    • instrumental: 分类标签,是否为器乐
    • allow_commercial_use: 分类标签,是否允许商业使用
    • allow_derivatives: 分类标签,是否允许衍生作品
    • require_attribution: 分类标签,是否需要署名
    • require_share_alike: 分类标签,是否需要相同方式共享
  • 分割:
    • train: 105033个样本,85239274784.388字节
  • 下载大小: 100325400918字节
  • 数据集大小: 85239274784.388字节

许可证信息

  • 数据集代码库: MIT许可证
  • 元数据: CC-BY 4.0许可证
  • 音频文件: 多种Creative Commons许可证,每个文件附带其许可证详情

数据集详情

  • 总样本数: 105,024个
  • 音频时长: 30秒每个样本
  • 总时长: 869.2小时
  • 分类: 16个不平衡的流派

数据集清理

  • 不可读文件: 173个文件被移除
  • 许可证不明确文件: 1377个文件被移除
AI搜集汇总
数据集介绍
main_image_url
构建方式
Free Music Archive (FMA) 数据集的构建基于一个开放且易于访问的音乐资源库,旨在为音乐信息检索(MIR)领域的研究提供支持。该数据集包含了来自16,341位艺术家的106,574首音乐曲目,涵盖了161种音乐流派。每首曲目均以30秒的片段形式提供,总计869.2小时的音频数据。数据集的构建过程中,剔除了173个无法读取的音频文件以及1377个许可证不明确的文件,确保了数据的可用性和合法性。
特点
FMA数据集的特点在于其丰富的音乐流派分类和详细的元数据信息。数据集不仅提供了高质量的音频文件,还包含了曲目标题、艺术家、作曲家、歌词作者、出版商等详细信息。此外,每首曲目都附带了流派标签、许可证信息以及用户级别的元数据,如播放次数和语言信息。这些特征使得FMA数据集成为音乐分类、流派识别和音频特征提取等任务的理想选择。
使用方法
FMA数据集的使用方法多样,适用于多种音乐信息检索任务。研究人员可以通过加载音频文件及其元数据进行音乐流派分类、音频特征提取或音频生成等实验。数据集提供了预定义的训练/验证/测试划分,便于模型训练和评估。此外,用户可以根据许可证信息筛选出适合商业用途的曲目,确保实验的合规性。代码和示例可在GitHub上获取,便于快速上手和复现实验结果。
背景与挑战
背景概述
Free Music Archive (FMA) 数据集由Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst和Xavier Bresson等研究人员于2017年创建,旨在为音乐信息检索(MIR)领域提供一个开放且易于访问的大规模音频数据集。该数据集包含106,574首来自16,341位艺术家和14,854张专辑的音频,涵盖了161种音乐流派,总容量达917 GiB,时长343天。FMA不仅提供了完整的音频文件,还包含了预计算的特征、元数据、标签以及艺术家传记等丰富信息。该数据集的发布极大地推动了MIR领域的研究,尤其是在音乐流派识别、音频分类和音频生成等任务中,为学术界和工业界提供了宝贵的资源。
当前挑战
FMA数据集在构建和应用过程中面临多重挑战。首先,音乐流派分类的复杂性使得模型在区分相似流派时表现不佳,尤其是对于跨流派音乐或混合风格的音乐。其次,数据集中存在大量不平衡的流派分布,某些流派的样本数量远少于其他流派,这可能导致模型在训练过程中偏向于样本较多的流派。此外,音频文件的版权问题也是构建过程中的一大挑战,部分文件因版权不明确或无法获取完整许可而被移除,影响了数据集的完整性。最后,音频数据的预处理和特征提取需要大量的计算资源,尤其是在处理高采样率和长时音频时,计算复杂度显著增加。
常用场景
经典使用场景
Free Music Archive (FMA) 数据集在音乐信息检索(MIR)领域中具有广泛的应用,尤其是在音乐分类和音频特征提取任务中表现突出。该数据集包含了超过10万首音乐曲目,涵盖了161种不同的音乐流派,为研究者提供了一个丰富的音频数据源。通过FMA,研究者可以训练和评估音乐流派识别模型,探索音频信号的频谱特征,以及进行音乐推荐系统的开发。
实际应用
在实际应用中,FMA数据集被广泛用于音乐流媒体平台的推荐系统开发。通过分析用户的听歌历史和音乐特征,平台可以为用户提供个性化的音乐推荐。此外,FMA还被用于音乐版权管理,帮助识别和分类音乐作品,确保其合法使用。在教育和研究领域,FMA为音乐学和计算机科学的交叉研究提供了宝贵的数据资源。
衍生相关工作
FMA数据集自发布以来,已经衍生出多项经典研究工作。例如,基于FMA的音乐流派分类挑战赛(FMA Challenge)吸引了全球研究者的广泛参与,推动了深度学习在音乐分类中的应用。此外,许多研究利用FMA数据集开发了新的音频特征提取算法和音乐推荐系统,进一步拓展了MIR领域的研究边界。这些工作不仅提升了音乐分类的准确性,还为音乐生成和音频信号处理提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作