five

FMA (Free Music Archive)|音乐信息检索数据集|音乐分析数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
音乐信息检索
音乐分析
下载链接:
https://opendatalab.org.cn/OpenDataLab/FMA
下载链接
链接失效反馈
资源简介:
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
提供机构:
OpenDataLab
创建时间:
2022-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
FMA数据集的构建基于Free Music Archive(FMA)平台,该平台是一个开放的音乐库,提供了大量免费的音乐资源。数据集的构建过程包括从FMA平台下载音乐文件,并对其进行元数据标注,如音乐风格、艺术家信息、发行年份等。此外,数据集还包含了音频特征提取,如频谱图、节奏特征等,以支持音乐信息检索和音乐分析任务。
特点
FMA数据集以其丰富的音乐多样性和高质量的元数据著称。该数据集包含了超过10万首音乐作品,涵盖了800多种不同的音乐风格。其元数据详细且准确,为研究者提供了深入分析音乐特征的可能性。此外,数据集的开放性和免费使用政策,使其成为音乐信息处理领域的重要资源。
使用方法
FMA数据集适用于多种音乐信息处理任务,包括音乐分类、音乐推荐系统和音乐情感分析等。研究者可以通过访问FMA的官方网站下载数据集,并使用Python等编程语言进行数据处理和分析。数据集的结构化设计使得用户可以轻松提取所需的音频特征和元数据,从而进行定制化的研究。
背景与挑战
背景概述
FMA(Free Music Archive)数据集是由纽约大学音乐与音频研究实验室(Music and Audio Research Laboratory, NYU)于2017年创建的,旨在为音乐信息检索(Music Information Retrieval, MIR)领域的研究提供一个开放且多样化的资源。该数据集包含了超过10万首歌曲,涵盖了多种音乐风格和流派,为研究人员提供了一个丰富的音乐数据资源。FMA的创建不仅推动了音乐分类、情感分析和自动音乐推荐等研究的发展,还为音乐版权和开放数据的使用提供了新的视角。
当前挑战
尽管FMA数据集在音乐信息检索领域具有重要意义,但其构建和使用过程中仍面临诸多挑战。首先,数据集的多样性带来了分类和标注的复杂性,不同音乐风格和流派的准确分类需要高度专业化的知识。其次,数据集的规模庞大,处理和分析这些数据需要高效的计算资源和算法。此外,音乐版权问题也是FMA数据集面临的一大挑战,如何在保证数据开放性的同时遵守版权法规,是研究人员和机构需要持续关注的问题。
发展历史
创建时间与更新
FMA数据集创建于2017年,由Kirell Benzi、Paul Lamere、Michaël Defferrard、Pierre Vandergheynst和Xavier Bresson共同发布。该数据集自发布以来,未有官方更新记录,但其内容和结构在音乐信息检索领域持续发挥重要作用。
重要里程碑
FMA数据集的发布标志着音乐信息检索领域的一个重要里程碑。它包含了超过10万首歌曲,涵盖了多种音乐风格和流派,为研究人员提供了丰富的数据资源。该数据集的多样性和高质量音频文件使其成为音乐分类、推荐系统和音频特征提取等研究的热门选择。此外,FMA数据集的开源性质和免费访问权限进一步推动了学术界和工业界的研究与应用。
当前发展情况
FMA数据集自发布以来,已成为音乐信息检索领域的重要基石。其丰富的音频数据和多样的音乐风格为研究人员提供了广阔的实验平台,推动了音乐分类、情感分析和推荐系统等方向的创新。随着深度学习和人工智能技术的发展,FMA数据集的应用范围不断扩大,不仅在学术研究中占据重要地位,也在音乐产业中展现出潜在的商业价值。未来,随着更多研究者和开发者的参与,FMA数据集有望继续引领音乐信息检索领域的发展,为音乐科技的进步做出更大贡献。
发展历程
  • FMA数据集的原始数据来源Free Music Archive网站正式上线,旨在提供一个开放的音乐资源库。
    2009年
  • FMA数据集首次在学术界发表,由Defferrard等人提出,并作为音乐信息检索研究的重要资源。
    2017年
  • FMA数据集在多个音乐信息检索和机器学习研究中得到广泛应用,成为该领域的重要基准数据集。
    2018年
常用场景
经典使用场景
在音乐信息检索领域,FMA(Free Music Archive)数据集被广泛用于音乐分类和音乐情感分析等经典任务。该数据集包含了大量多样化的音乐片段,涵盖了多种风格和流派,为研究人员提供了丰富的实验材料。通过分析这些音乐片段的音频特征,研究者能够开发出更为精准的音乐分类算法,从而推动音乐信息检索技术的发展。
衍生相关工作
FMA数据集的发布催生了一系列相关研究工作,特别是在音乐信息检索和机器学习领域。例如,有研究者利用FMA数据集开发了基于深度学习的音乐分类模型,显著提升了分类准确率。此外,FMA数据集还被用于验证各种音乐情感分析算法的有效性,推动了情感计算技术的发展。这些衍生工作不仅丰富了学术研究,也为实际应用提供了技术支持。
数据集最近研究
最新研究方向
在音乐信息检索领域,FMA(Free Music Archive)数据集的最新研究方向主要集中在音乐情感分析和自动音乐推荐系统上。随着深度学习技术的进步,研究人员利用FMA数据集中的丰富音频和元数据,探索如何更准确地识别和分类音乐中的情感表达。此外,结合用户行为数据,研究者们致力于开发个性化的音乐推荐算法,以提升用户体验和满足多样化的音乐需求。这些研究不仅推动了音乐信息检索技术的发展,也为音乐产业的智能化转型提供了有力支持。
相关研究论文
  • 1
    FMA: A Dataset for Music AnalysisNew York University · 2017年
  • 2
    Exploring the Use of FMA Dataset for Music Genre ClassificationUniversity of California, San Diego · 2019年
  • 3
    A Comparative Study of Music Genre Classification Using FMA and GTZAN DatasetsUniversity of Illinois at Urbana-Champaign · 2020年
  • 4
    Deep Learning Approaches for Music Genre Classification Using FMA DatasetStanford University · 2021年
  • 5
    Transfer Learning for Music Genre Classification with FMA DatasetMassachusetts Institute of Technology · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

人民日报语料库

该数据集包含2023年5月至2024年4月期间人民日报的全部文章,以JSON格式保存,每篇文章包含URL、标题和内容。

github 收录

The Rice Annotation Project Database (RAP-DB)

RAP-DB是一个专注于水稻基因组注释的数据库,提供了水稻基因组的详细注释信息,包括基因结构、功能注释、表达数据等。该数据库旨在为水稻研究者提供一个全面的资源,以促进水稻基因组学和遗传学的研究。

rapdb.dna.affrc.go.jp 收录