free-music-archive-full
收藏Free Music Archive - Full 数据集概述
数据集基本信息
- 数据集名称:Free Music Archive - Full
- 数据集地址:https://huggingface.co/datasets/Palak2506/free-music-archive-full
- 许可协议:cc
- 数据规模:100K<n<1M
- 任务类别:audio-to-audio, audio-classification
- 数据格式:Parquet文件
数据内容与规模
- 总样本数:106,199条音频片段
- 总时长:8,104小时(未修剪长度)
- 原始数据总量:917 GiB(343天音频)
- 本版本数据集大小:593 GB(相比原始ZIP文件节省约34%空间)
- 数据划分:仅包含一个“train”划分,包含106,198个样本,占用约485.82 GB。
数据来源与构成
- 原始来源:Free Music Archive (FMA)
- 音频数量:来自106,574首曲目
- 艺术家数量:16,341位
- 专辑数量:14,854张
- 流派分类:包含161种流派的层次化分类体系
数据特征(Features)
数据集包含以下字段:
audio:音频数据title:曲目标题url:URLartist:艺术家composer:作曲者lyricist:作词者publisher:出版商genres:流派序列(共164个类别,包括“20th Century Classical”至“hiphop”)tags:标签序列released:发布时间戳language:语言listens:收听次数artist_url:艺术家URLartist_website:艺术家网站album_title:专辑标题album_url:专辑URLlicense:许可协议(共35种类型,包括“CC-BY 1.0”至“Free Music Philosophy (FMP)”)copyright:版权信息explicit:是否包含露骨内容(是/否)instrumental:是否为器乐(是/否)allow_commercial_use:是否允许商业使用(是/否)allow_derivatives:是否允许衍生作品(是/否)require_attribution:是否需要署名(是/否)require_share_alike:是否要求相同方式共享(是/否)
数据预处理与打包说明
- 文件移除:173个文件因
libsndfile / libmpg123无法读取而被移除;202个文件因许可协议不明确或全文不可用而被移除。 - 音频重编码:为统一编码,所有音频均使用
libmpg123重新编码。 - 打包格式:数据以Parquet文件格式打包。
许可协议信息
- FMA代码库:采用MIT许可证。
- FMA元数据:采用CC-BY 4.0许可证。
- 音频文件:采用多种知识共享系列许可协议及少量其他协议,每个文件均附有其许可协议及重要条款枚举。
- 主要许可协议时长分布:前三位为CC-BY-NC-SA 3.0(34.16%)、CC-BY-NC-ND 3.0(28.34%)、CC-BY-NC-ND 4.0(12.57%)。
相关研究
- 原始论文:“FMA: A Dataset for Music Analysis”,发表于ISMIR 2017。
- 挑战赛论文:“Learning to Recognize Musical Genre from Audio: Challenge Overview”,发表于The 2018 Web Conference Companion。
引用格式
@inproceedings{fma_dataset, title = {{FMA}: A Dataset for Music Analysis}, author = {Defferrard, Micha"el and Benzi, Kirell and Vandergheynst, Pierre and Bresson, Xavier}, booktitle = {18th International Society for Music Information Retrieval Conference (ISMIR)}, year = {2017}, archiveprefix = {arXiv}, eprint = {1612.01840}, url = {https://arxiv.org/abs/1612.01840}, }
@inproceedings{fma_challenge, title = {Learning to Recognize Musical Genre from Audio}, subtitle = {Challenge Overview}, author = {Defferrard, Micha"el and Mohanty, Sharada P. and Carroll, Sean F. and Salathe, Marcel}, booktitle = {The 2018 Web Conference Companion}, year = {2018}, publisher = {ACM Press}, isbn = {9781450356404}, doi = {10.1145/3184558.3192310}, archiveprefix = {arXiv}, eprint = {1803.05337}, url = {https://arxiv.org/abs/1803.05337}, }




