MTG-Jamendo Dataset

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/MTG/jamendo-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MTG-Jamendo数据集是一个新的开放数据集，用于音乐自动标记。它使用Jamendo上根据创意共享许可证提供的音乐和内容上传者提供的标签构建。数据集包含超过55,000个完整音频曲目，拥有来自流派、乐器和情绪/主题类别的195个标签。

The MTG-Jamendo dataset is a novel open dataset designed for automatic music tagging. It is constructed using music available under Creative Commons licenses on Jamendo, along with tags provided by content uploaders. The dataset encompasses over 55,000 full audio tracks, annotated with 195 tags spanning genres, instruments, and mood/theme categories.

创建时间：

2019-04-25

原始信息汇总

MTG-Jamendo 数据集概述

数据集描述

名称: MTG-Jamendo 数据集
目的: 用于音乐自动标记
内容: 包含超过55,000个完整音频曲目，具有195个标签，涵盖流派、乐器和情绪/主题类别
来源: 使用Jamendo上的音乐，遵循创意共享许可，标签由内容上传者提供
数据分割: 提供详细的数据分割，用于研究和基线方法的性能报告

数据集结构

元数据文件: 位于data目录下，包括原始数据、清理后的标签数据及特定艺术家数量的标签数据等
统计数据: 位于stats目录下，提供每个元数据文件的统计信息，如曲目、专辑和艺术家数量

数据集使用

下载: 音频以320kbps MP3格式提供，也提供低比特率版本和预计算的mel-spectrograms
加载: 通过Python脚本加载数据，支持直接访问曲目和标签信息
重现处理与统计: 提供脚本以重新计算统计数据和清理标签
实验重现: 提供基线实验的脚本，包括训练和测试模式

研究挑战

数据集被用于MediaEval 2019-2021的情感和主题识别音乐任务

引用信息

引用时请参考Bogdanov等人(2019)的出版物，详细信息见README文件

许可信息

代码: Apache 2.0许可
元数据: CC BY-NC-SA 4.0许可
音频文件: 创意共享许可，具体细节见audio_licenses.txt

搜集汇总

数据集介绍

构建方式

MTG-Jamendo数据集的构建基于Jamendo平台上可用的Creative Commons许可音乐，利用内容上传者提供的标签信息。该数据集包含超过55,000首完整音频曲目，涵盖195个标签，分为流派、乐器和情绪/主题类别。数据集的构建过程包括对原始数据的预处理、标签清理以及基于标签频率和艺术家数量的过滤，最终生成多个子集和训练/验证/测试集。

特点

MTG-Jamendo数据集的显著特点在于其大规模和多样性，涵盖了广泛的音乐标签，适用于音乐自动标签任务。数据集提供了详细的元数据文件和统计信息，支持多种标签类别的研究。此外，数据集还提供了预计算的Mel频谱图和AcousticBrainz特征，便于快速实验和模型训练。

使用方法

使用MTG-Jamendo数据集时，首先需下载数据集并安装必要的Python环境。数据集提供了多种下载选项，包括高质量音频、低质量音频和预计算的特征文件。通过提供的Python脚本，用户可以轻松加载数据并进行后续处理。数据集还支持实验的复现，提供了详细的实验脚本和结果文件，便于研究人员进行对比和验证。

背景与挑战

背景概述

音乐自动标签化领域近年来取得了显著进展，其中MTG-Jamendo数据集的推出尤为引人注目。该数据集由Music Technology Group（MTG）于2019年创建，旨在为音乐自动标签化研究提供一个开放且丰富的资源。MTG-Jamendo数据集包含了超过55,000首完整的音频曲目，涵盖了195个标签，这些标签分为音乐类型、乐器和情绪/主题三大类别。该数据集不仅为研究人员提供了详尽的数据分割，还报告了基于五种不同标签集的简单基线方法的性能。MTG-Jamendo数据集的发布，极大地推动了音乐信息检索和自动标签化技术的发展，为相关领域的研究提供了宝贵的数据支持。

当前挑战

尽管MTG-Jamendo数据集在音乐自动标签化领域具有重要意义，但其构建和使用过程中仍面临诸多挑战。首先，数据集的构建涉及从Jamendo平台获取大量音乐资源，并对其进行标签化处理，这一过程需要克服版权和数据质量的难题。其次，数据集的标签多样性和复杂性增加了模型训练的难度，尤其是在处理多标签分类任务时，模型的准确性和效率面临严峻考验。此外，数据集的规模庞大，对存储和计算资源提出了高要求，如何在有限的资源下高效利用该数据集也是一个重要挑战。最后，数据集的标签可能存在主观性和不一致性，如何确保标签的准确性和一致性，是研究人员在使用该数据集时需要重点关注的问题。

常用场景

经典使用场景

在音乐自动标签领域，MTG-Jamendo数据集以其丰富的音频资源和多维度的标签系统，成为研究者们进行音乐分类、情感识别和主题分析的经典工具。该数据集包含了超过55,000首完整的音频曲目，涵盖了195个标签，涉及音乐的流派、乐器和情感主题等多个方面。通过这些标签，研究者可以训练和验证各种机器学习模型，以实现对音乐内容的自动分类和情感识别。

解决学术问题

MTG-Jamendo数据集在学术研究中解决了音乐信息检索（MIR）领域中的多个关键问题。首先，它为音乐自动标签提供了大规模的标注数据，使得研究者能够开发和评估更为精确的分类算法。其次，该数据集的多标签特性有助于解决多标签分类问题，特别是在音乐情感和主题识别方面。此外，数据集的多样性和高质量标签为跨文化音乐分析提供了有力支持，推动了全球音乐研究的进展。

衍生相关工作

MTG-Jamendo数据集的发布催生了多项相关研究和工作。例如，基于该数据集的情感和主题识别任务在MediaEval 2019-2021系列挑战赛中得到了广泛应用，推动了音乐情感识别技术的发展。此外，数据集还启发了“Song Describer”项目，该项目通过众包方式为音乐生成描述性文本，进一步拓展了音乐与语言结合的研究领域。这些衍生工作不仅丰富了音乐信息检索的研究内容，也为实际应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集