five

free-music-archive-medium

收藏
Hugging Face2024-08-31 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/benjamin-paine/free-music-archive-medium
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要配置名为'commercial',包含音频文件及其相关元数据,如标题、URL、艺术家、作曲家、作词家、出版商、流派和标签。流派和标签特征提供了详细的音乐分类,包括多种音乐风格和特定年代,适用于音乐分析和推荐系统。

This dataset has a primary configuration named 'commercial', which contains audio files and their associated metadata including title, URL, artist, composer, lyricist, publisher, genre, and tags. The genre and tag features provide detailed music categorization covering diverse musical styles and specific eras, making it suitable for music analysis and recommendation systems.
创建时间:
2024-08-31
原始信息汇总

数据集概述

数据集配置

配置名称:commercial

  • 特征列表
    • audio: 音频文件
    • title: 歌曲标题
    • url: 歌曲链接
    • artist: 艺术家名称
    • composer: 作曲家
    • lyricist: 作词家
    • publisher: 出版者
    • genres: 流派列表
    • tags: 标签列表
    • released: 发布时间
    • language: 语言
    • listens: 收听次数
    • artist_url: 艺术家链接
    • artist_website: 艺术家网站
    • album_title: 专辑标题
    • album_url: 专辑链接
    • license: 许可证
    • copyright: 版权信息
    • explicit: 是否包含成人内容
    • instrumental: 是否为纯音乐
    • allow_commercial_use: 是否允许商业使用
    • allow_derivatives: 是否允许衍生作品
    • require_attribution: 是否需要署名
    • require_share_alike: 是否需要相同方式共享
  • 分割
    • train: 训练集,包含2312个样本,占用2107981124.968字节
  • 数据大小
    • 下载大小:2234389250字节
    • 数据集大小:2107981124.968字节

配置名称:default

  • 特征列表
    • audio: 音频文件
    • title: 歌曲标题
    • url: 歌曲链接
    • artist: 艺术家名称
    • composer: 作曲家
    • lyricist: 作词家
    • publisher: 出版者
    • genres: 流派列表
    • tags: 标签列表
    • released: 发布时间
    • language: 语言
    • listens: 收听次数
    • artist_url: 艺术家链接
    • artist_website: 艺术家网站
    • album_title: 专辑标题
    • album_url: 专辑链接
    • license: 许可证
    • copyright: 版权信息
    • explicit: 是否包含成人内容
    • instrumental: 是否为纯音乐
    • allow_commercial_use: 是否允许商业使用
    • allow_derivatives: 是否允许衍生作品
    • require_attribution: 是否需要署名
    • require_share_alike: 是否需要相同方式共享
  • 分割
    • train: 训练集,包含24704个样本,占用21811509577.744字节
  • 数据大小
    • 下载大小:23902711486字节
    • 数据集大小:21811509577.744字节

数据文件路径

配置名称:commercial

  • 训练集路径commercial/train-*

配置名称:default

  • 训练集路径data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
Free Music Archive (FMA) 数据集的构建基于 Creative Commons 许可的音乐资源,涵盖了来自 16,341 位艺术家的 106,574 首曲目,总时长达 343 天。数据集通过精心筛选,剔除了无法读取或许可信息不明确的文件,最终形成了包含 24,801 个样本的 medium 子集。每个样本被剪辑为 30 秒,涵盖了 16 种不平衡的音乐流派,总时长为 206.6 小时。数据集的构建过程注重音频质量与元数据的完整性,确保了其在音乐信息检索领域的广泛应用。
使用方法
FMA 数据集的使用方法灵活多样,适用于多种音乐信息检索任务。用户可以通过 HuggingFace 平台直接下载数据集,并利用提供的元数据进行音频分类、流派识别等任务。数据集支持音频到音频的转换任务,也可用于训练端到端的深度学习模型。开发者可以根据许可信息筛选数据,确保符合商业或非商业用途的要求。此外,数据集提供了预计算的特征,便于快速进行特征提取与分析。代码示例和详细文档可在 GitHub 上获取,帮助用户快速上手。
背景与挑战
背景概述
Free Music Archive (FMA) 数据集由Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst和Xavier Bresson等研究人员于2017年创建,旨在为音乐信息检索(MIR)领域提供一个开放且易于访问的资源。该数据集包含了来自16,341位艺术家的106,574首音乐曲目,涵盖了161种音乐流派,总时长达到343天,数据量高达917 GiB。FMA不仅提供了完整的音频文件,还包含了预计算的特征、元数据、标签以及艺术家传记等丰富信息。该数据集的发布极大地推动了MIR领域的研究,尤其是在音乐流派识别、音频分类和音频生成等任务中,为研究人员提供了一个标准化的基准。
当前挑战
FMA数据集在构建和应用过程中面临多重挑战。首先,音乐流派分类任务本身具有高度主观性,不同流派的边界模糊,导致模型在分类时容易产生混淆。其次,数据集中包含的音频文件质量参差不齐,部分文件存在格式不兼容或损坏的情况,影响了数据的完整性和可用性。此外,数据集的构建过程中还涉及复杂的版权问题,部分音频文件的许可协议不明确或无法获取完整的许可文本,导致部分数据被排除在外。这些挑战不仅增加了数据集的构建难度,也对后续的研究工作提出了更高的要求。
常用场景
经典使用场景
Free Music Archive (FMA) 数据集在音乐信息检索(MIR)领域中被广泛用于音乐分类和特征提取任务。其丰富的音频数据和详细的元数据使得研究人员能够进行音乐流派识别、音频特征分析以及音乐推荐系统的开发。通过提供长达30秒的音频片段,FMA数据集为深度学习模型的训练和验证提供了高质量的输入数据。
解决学术问题
FMA数据集解决了音乐信息检索领域中数据稀缺的问题,尤其是针对大规模音频数据的获取和处理。通过提供超过24,000个音频样本和161种音乐流派的分类,该数据集为音乐流派识别、音频特征提取和音乐推荐等任务提供了坚实的基础。其多样化的音乐类型和详细的元数据使得研究人员能够深入探索音乐特征与流派之间的关系,推动了音乐信息检索领域的发展。
实际应用
在实际应用中,FMA数据集被广泛用于音乐推荐系统和音乐流媒体平台的开发。通过分析用户的音乐偏好和音频特征,平台能够提供个性化的音乐推荐服务。此外,FMA数据集还被用于音乐版权管理和音乐内容分析,帮助音乐平台识别和分类不同流派的音乐内容,从而优化内容分发和版权管理流程。
数据集最近研究
最新研究方向
近年来,Free Music Archive (FMA) 数据集在音乐信息检索(MIR)领域的研究中扮演了重要角色,尤其是在音乐分类、音频特征提取和端到端学习任务中。随着深度学习技术的快速发展,研究者们越来越多地利用FMA数据集进行音乐风格识别、情感分析和自动标签生成等任务。特别是在音乐风格识别方面,FMA的广泛音乐类型和丰富的元数据为模型训练提供了坚实的基础。此外,FMA还被用于探索跨文化音乐分析,帮助研究者理解不同文化背景下的音乐特征。该数据集的开放性和多样性使其成为推动音乐信息检索领域前沿研究的重要资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作