five

free-music-archive-small

收藏
Hugging Face2024-08-31 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/benjamin-paine/free-music-archive-small
下载链接
链接失效反馈
官方服务:
资源简介:
Free Music Archive - Small 数据集是一个适用于商业用途的音频文件集合。该数据集包含多种特征,如音频文件、标题、网址、艺术家姓名、作曲家、作词家、出版商、流派和标签。流派列表非常广泛,涵盖了从古典到嘻哈等多种音乐风格。标签提供了额外的元数据,包括时间段、乐器和其他描述符。

Free Music Archive - Small dataset is a collection of audio files suitable for commercial use. This dataset includes multiple features such as audio files, titles, URLs, artist names, composers, lyricists, publishers, genres and tags. The genre list is extensive, covering a wide variety of musical styles from classical to hip-hop. The tags provide additional metadata including time periods, musical instruments and other descriptors.
创建时间:
2024-08-31
原始信息汇总

数据集概述

数据集名称

Free Music Archive - Small

任务类别

  • 音频分类
  • 音频到音频

数据集配置

配置名称:commercial

  • 特征列表

    • audio: 音频数据
    • title: 歌曲标题
    • url: 歌曲链接
    • artist: 艺术家
    • composer: 作曲家
    • lyricist: 作词家
    • publisher: 出版者
    • genres: 流派(包含164种流派)
    • tags: 标签
    • released: 发布日期
    • language: 语言
    • listens: 收听次数
    • artist_url: 艺术家链接
    • artist_website: 艺术家网站
    • album_title: 专辑标题
    • album_url: 专辑链接
    • license: 许可证(包含33种许可证类型)
    • copyright: 版权信息
    • explicit: 是否包含露骨内容
    • instrumental: 是否为纯音乐
    • allow_commercial_use: 是否允许商业使用
    • allow_derivatives: 是否允许衍生作品
    • require_attribution: 是否需要署名
    • require_share_alike: 是否需要相同方式共享
  • 数据分割

    • train: 训练集,包含952个样本,总大小为926971174字节
  • 数据集大小

    • 下载大小:906123076字节
    • 数据集大小:926971174字节

配置名称:default

  • 特征列表

    • audio: 音频数据
    • title: 歌曲标题
    • url: 歌曲链接
    • artist: 艺术家
    • composer: 作曲家
    • lyricist: 作词家
    • publisher: 出版者
    • genres: 流派(包含164种流派)
    • tags: 标签
    • released: 发布日期
    • language: 语言
    • listens: 收听次数
    • artist_url: 艺术家链接
    • artist_website: 艺术家网站
    • album_title: 专辑标题
    • album_url: 专辑链接
    • license: 许可证(包含33种许可证类型)
    • copyright: 版权信息
    • explicit: 是否包含露骨内容
    • instrumental: 是否为纯音乐
    • allow_commercial_use: 是否允许商业使用
    • allow_derivatives: 是否允许衍生作品
    • require_attribution: 是否需要署名
    • require_share_alike: 是否需要相同方式共享
  • 数据分割

    • train: 训练集,包含7882个样本,总大小为7058597608.844字节
  • 数据集大小

    • 下载大小:7676334961字节
    • 数据集大小:7058597608.844字节

数据集配置文件

  • commercial配置:包含commercial/train-*文件
  • default配置:包含data/train-*文件

标签

  • fma
  • free-music-archive
搜集汇总
数据集介绍
main_image_url
构建方式
Free Music Archive - Small 数据集是从 Free Music Archive (FMA) 中精选出的一个子集,旨在为音乐信息检索(MIR)任务提供高质量的音频数据。该数据集包含了 7,926 个音频样本,每个样本被剪辑为 30 秒,涵盖了 8 个平衡的音乐流派,总计 65.9 小时的音频数据。数据集的构建过程中,剔除了无法读取的音频文件以及许可证不明确的文件,确保了数据的可用性和合法性。
使用方法
使用 Free Music Archive - Small 数据集时,用户可以通过 HuggingFace 平台直接下载数据,并利用提供的元数据进行任务定制。数据集适用于音频分类、音频生成等任务,用户可以根据许可证信息筛选数据,确保符合商业或非商业用途的需求。此外,数据集还提供了预定义的训练集,用户可以直接用于模型训练和评估。
背景与挑战
背景概述
Free Music Archive (FMA) 数据集由Michaël Defferrard、Kirell Benzi、Pierre Vandergheynst和Xavier Bresson等研究人员于2017年发布,旨在为音乐信息检索(MIR)领域提供一个开放且易于访问的数据资源。该数据集包含了106,574首来自16,341位艺术家和14,854张专辑的音频文件,涵盖了161种音乐流派,总容量达917 GiB,时长343天。FMA不仅提供了高质量的完整音频文件,还包含了预计算的特征、元数据、标签以及艺术家传记等丰富信息。该数据集的发布极大地推动了音乐分类、流派识别、音频特征提取等任务的研究,尤其是在深度学习领域,为研究者提供了宝贵的实验数据。
当前挑战
FMA数据集在构建和应用过程中面临多重挑战。首先,音乐流派分类的复杂性使得模型在区分相似流派时表现不佳,尤其是当流派之间存在交叉或模糊边界时。其次,音频数据的多样性和复杂性增加了特征提取和模型训练的难度,尤其是在处理不同音质、时长和风格的音乐时。此外,数据集的构建过程中,部分音频文件因格式不兼容或版权问题被排除,导致数据完整性和多样性受到一定影响。最后,尽管FMA提供了丰富的元数据,但如何有效利用这些信息进行多模态学习仍是一个亟待解决的问题。
常用场景
经典使用场景
Free Music Archive - Small数据集在音乐信息检索(MIR)领域中具有广泛的应用,尤其是在音乐分类和音频分析任务中表现突出。该数据集包含了8种平衡的音乐流派,涵盖了65.9小时的音频数据,适合用于训练和评估音乐分类模型。研究人员可以通过该数据集进行音乐流派识别、音频特征提取等任务,为音乐推荐系统和自动化音乐分类提供了坚实的基础。
解决学术问题
Free Music Archive - Small数据集解决了音乐信息检索领域中数据稀缺的问题。由于音乐数据的版权限制,许多研究难以获取大规模、高质量的音频数据。该数据集通过提供大量Creative Commons许可的音频文件,填补了这一空白,使得研究人员能够更便捷地进行音乐分类、音频特征提取等任务的研究,推动了音乐信息检索领域的发展。
实际应用
在实际应用中,Free Music Archive - Small数据集被广泛用于音乐推荐系统和自动化音乐分类。通过该数据集训练的模型能够帮助音乐流媒体平台更精准地推荐音乐,提升用户体验。此外,该数据集还可用于音乐版权管理、音乐内容分析等商业应用场景,为音乐产业的智能化发展提供了技术支持。
数据集最近研究
最新研究方向
在音乐信息检索(MIR)领域,Free Music Archive (FMA) 数据集因其丰富的音频资源和多层次元数据,成为研究音乐分类、音频特征提取和生成模型的重要工具。近年来,随着深度学习技术的进步,研究者们利用FMA数据集探索了端到端的音乐风格识别模型,尤其是基于卷积神经网络(CNN)和循环神经网络(RNN)的混合架构。此外,FMA还被广泛应用于音乐生成和音频修复任务,特别是在生成对抗网络(GAN)和变分自编码器(VAE)的应用中,展现了其在模拟复杂音乐结构和风格迁移中的潜力。FMA的开放性和多样性为音乐分析领域提供了宝贵的实验平台,推动了音乐信息检索技术的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作