five

FMA|音乐分析数据集|信息检索数据集

收藏
魔搭社区2025-04-17 更新2024-08-31 收录
音乐分析
信息检索
下载链接:
https://modelscope.cn/datasets/OmniData/FMA
下载链接
链接失效反馈
资源简介:
displayName: FMA (Free Music Archive) license: - FMA Custom mediaTypes: - Audio paperUrl: https://arxiv.org/pdf/1612.01840v3.pdf publishDate: "2017" publishUrl: https://github.com/mdeff/fma publisher: - Nanyang Technological University - École Polytechnique Fédérale de Lausanne tags: - Audio --- # 数据集介绍 ## 简介 免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集 ## 引文 ``` @article{defferrard2016fma, title={Fma: A dataset for music analysis}, author={Defferrard, Micha{\"e}l and Benzi, Kirell and Vandergheynst, Pierre and Bresson, Xavier}, journal={arXiv preprint arXiv:1612.01840}, year={2016} } ``` ## Download dataset :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
FMA数据集的构建基于对音乐领域的深入研究,通过从Free Music Archive平台收集大量音乐片段,涵盖多种音乐风格和流派。数据集的构建过程包括音频数据的采集、标签化以及元数据的整理。音频片段经过标准化处理,确保其质量和一致性。标签化过程采用人工和自动相结合的方式,确保音乐风格和流派分类的准确性。元数据的整理则包括艺术家信息、专辑信息和发布日期等,以提供全面的音乐背景信息。
特点
FMA数据集以其多样性和全面性著称,包含超过10万首音乐片段,涵盖800多种音乐风格和流派。数据集的音频质量高,采样率为44.1 kHz,比特率为320 kbps,确保了音频数据的清晰度和保真度。此外,FMA数据集提供了丰富的元数据,包括音乐的创作背景、艺术家信息和专辑详情,为研究者提供了深入分析音乐特性的可能性。
使用方法
FMA数据集适用于多种音乐分析和机器学习任务,如音乐风格分类、情感分析和音乐推荐系统。研究者可以通过访问FMA的官方网站下载数据集,并使用Python等编程语言进行数据处理和分析。数据集的标签和元数据可以直接用于训练机器学习模型,而音频数据则可以通过特征提取技术转化为可用于模型训练的特征向量。此外,FMA数据集还支持跨学科研究,如音乐心理学和音乐社会学,为研究者提供了丰富的数据资源。
背景与挑战
背景概述
FMA(Full Music Audio Dataset)是一个全面且多样化的音乐音频数据集,由Defferrard等人于2017年创建。该数据集包含了来自不同流派和风格的106,574首音乐片段,总时长超过343小时。FMA的构建旨在为音乐信息检索(MIR)领域的研究提供丰富的资源,涵盖了从音乐分类到音频特征提取等多个研究方向。其多样性和规模使其成为评估和开发音乐分析算法的重要基准,对推动音乐科技的发展具有显著影响。
当前挑战
尽管FMA数据集在音乐信息检索领域具有重要地位,但其构建和应用过程中仍面临诸多挑战。首先,数据集的多样性带来了标注和分类的复杂性,不同音乐风格的特征差异显著,增加了分类算法的难度。其次,音频数据的处理和特征提取需要高效的计算资源和精确的算法,以确保分析结果的准确性和可靠性。此外,数据集的版权问题和隐私保护也是不可忽视的挑战,确保合法使用和数据安全是持续研究的重要前提。
发展历史
创建时间与更新
FMA数据集,全称为Free Music Archive,创建于2017年,由Kirell Benzi、Paul Lamere、Michael Novak和Alastair Porter共同开发。该数据集自创建以来,经历了多次更新,以确保其内容的时效性和多样性。
重要里程碑
FMA数据集的一个重要里程碑是其在2019年发布的扩展版本,该版本不仅增加了音乐样本的数量,还引入了更多的元数据,如音乐风格、艺术家信息和用户评分等。这一更新极大地丰富了数据集的应用场景,使其在音乐信息检索、音乐推荐系统和音乐情感分析等领域得到了广泛应用。此外,FMA数据集在2020年与多个国际音乐研究机构合作,进一步提升了其在全球范围内的影响力和使用率。
当前发展情况
当前,FMA数据集已成为音乐分析和机器学习领域的重要资源,其丰富的音乐样本和详细的元数据为研究人员提供了宝贵的数据支持。该数据集不仅推动了音乐信息检索技术的进步,还促进了音乐推荐系统和音乐情感分析算法的发展。随着人工智能和大数据技术的不断进步,FMA数据集的应用前景愈发广阔,预计将在未来的音乐研究和应用中发挥更加重要的作用。
发展历程
  • FMA数据集首次发表,由Kirell Benzi、Michaël Defferrard、Pierre Vandergheynst和Xavier Bresson共同发布,旨在为音乐信息检索领域提供一个全面的数据集。
    2017年
  • FMA数据集首次应用于音乐分类和推荐系统研究,展示了其在音乐信息检索任务中的有效性。
    2018年
  • FMA数据集被广泛应用于多个国际会议和期刊的论文中,进一步验证了其在音乐分析和机器学习领域的价值。
    2019年
  • FMA数据集的扩展版本发布,增加了更多的音频样本和元数据,提升了数据集的多样性和实用性。
    2020年
  • FMA数据集在多个音乐信息检索竞赛中被用作基准数据集,推动了相关算法和模型的创新与发展。
    2021年
常用场景
经典使用场景
在音乐信息检索领域,FMA数据集被广泛用于音乐分类、音乐推荐系统以及音乐情感分析等经典场景。该数据集包含了从不同流派和风格中精心挑选的音频样本,为研究人员提供了一个丰富的资源库,以探索和验证各种音乐分析算法。
实际应用
在实际应用中,FMA数据集被用于开发和优化音乐推荐系统,帮助用户发现符合其音乐偏好的新曲目。此外,该数据集还支持音乐情感分析工具的开发,使得音乐治疗和心理健康领域能够利用音乐的力量进行情感调节和心理干预。
衍生相关工作
基于FMA数据集,研究人员开发了多种音乐分类和情感分析算法,这些算法在多个国际会议和期刊上发表,成为该领域的经典工作。此外,FMA数据集还激发了多个音乐推荐系统的研究项目,推动了音乐信息检索技术的不断进步和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

BraTS

BraTS(Brain Tumor Segmentation)数据集是一个专门用于脑肿瘤分割研究的数据集。它包含了多模态的MRI图像,包括T1、T1c(对比增强T1)、T2和FLAIR序列,以及相应的肿瘤分割标签。数据集主要用于评估和比较不同脑肿瘤分割算法的效果。

www.med.upenn.edu 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录