rkstgr/mtg-jamendo
收藏Hugging Face2022-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rkstgr/mtg-jamendo
下载链接
链接失效反馈官方服务:
资源简介:
---
license:
- apache-2.0
size_categories:
- 10K<n<100K
source_datasets:
- original
pretty_name: MTG Jamendo
---
# Dataset Card for MTG Jamendo Dataset
## Dataset Description
- **Repository:** [MTG Jamendo dataset repository](https://github.com/MTG/mtg-jamendo-dataset)
### Dataset Summary
MTG-Jamendo Dataset, a new open dataset for music auto-tagging. It is built using music available at Jamendo under Creative Commons licenses and tags provided by content uploaders. The dataset contains over 55,000 full audio tracks with 195 tags from genre, instrument, and mood/theme categories. We provide elaborated data splits for researchers and report the performance of a simple baseline approach on five different sets of tags: genre, instrument, mood/theme, top-50, and overall.
## Dataset structure
### Data Fields
- `id`: an integer containing the id of the track
- `artist_id`: an integer containing the id of the artist
- `album_id`: an integer containing the id of the album
- `duration_in_sec`: duration of the track as a float
- `genres`: list of strings, describing genres the track is assigned to
- `instruments`: list of strings for the main instruments of the track
- `moods`: list of strings, describing the moods the track is assigned to
- `audio`: audio of the track
### Data Splits
This dataset has 2 balanced splits: _train_ (90%) and _validation_ (10%)
### Licensing Information
This dataset version 1.0.0 is released under the [Apache-2.0 License](http://www.apache.org/licenses/LICENSE-2.0).
### Citation Information
```
@conference {bogdanov2019mtg,
author = "Bogdanov, Dmitry and Won, Minz and Tovstogan, Philip and Porter, Alastair and Serra, Xavier",
title = "The MTG-Jamendo Dataset for Automatic Music Tagging",
booktitle = "Machine Learning for Music Discovery Workshop, International Conference on Machine Learning (ICML 2019)",
year = "2019",
address = "Long Beach, CA, United States",
url = "http://hdl.handle.net/10230/42015"
}
```
license:
- apache-2.0
size_categories:
- 10K<n<100K
source_datasets:
- original
pretty_name: MTG Jamendo
---
# MTG Jamendo 数据集卡片
## 数据集说明
- **仓库地址**:[MTG Jamendo 数据集仓库](https://github.com/MTG/mtg-jamendo-dataset)
### 数据集概述
MTG-Jamendo 数据集是一款用于音乐自动标注的新型开源数据集。该数据集依托Jamendo平台上采用知识共享(Creative Commons)许可证发布的音乐素材,以及内容上传者提供的标注标签构建而成。数据集包含超过55000条完整音频曲目,涵盖来自流派、乐器以及情绪/主题三大类别的195个标注标签。我们为研究者提供了经过精细划分的数据集拆分方案,并针对五组不同的标注集合(流派、乐器、情绪/主题、Top50以及全量标签)报告了简单基线方法的性能表现。
## 数据集结构
### 数据字段
- `id`:整数类型,存储曲目编号
- `artist_id`:整数类型,存储艺术家编号
- `album_id`:整数类型,存储专辑编号
- `duration_in_sec`:浮点类型,存储曲目时长(单位:秒)
- `genres`:字符串列表,存储曲目所属的音乐流派标签
- `instruments`:字符串列表,存储曲目中使用的主要乐器标签
- `moods`:字符串列表,存储曲目对应的情绪/主题标签
- `audio`:存储曲目的音频数据
### 数据拆分
本数据集包含两组均衡拆分:训练集(train,占比90%)与验证集(validation,占比10%)
### 许可信息
本数据集1.0.0版本采用[Apache-2.0许可证](http://www.apache.org/licenses/LICENSE-2.0)进行发布。
### 引用信息
@conference {bogdanov2019mtg,
author = "Bogdanov, Dmitry and Won, Minz and Tovstogan, Philip and Porter, Alastair and Serra, Xavier",
title = "The MTG-Jamendo Dataset for Automatic Music Tagging",
booktitle = "Machine Learning for Music Discovery Workshop, International Conference on Machine Learning (ICML 2019)",
year = "2019",
address = "Long Beach, CA, United States",
url = "http://hdl.handle.net/10230/42015"
}
提供机构:
rkstgr
原始信息汇总
MTG Jamendo 数据集概述
数据集描述
- 数据集名称: MTG Jamendo
- 数据集摘要: MTG Jamendo 数据集是一个用于音乐自动标记的新开放数据集。该数据集使用Jamendo上基于Creative Commons许可证的音乐和内容上传者提供的标签构建,包含超过55,000首完整音频曲目,涵盖195个来自流派、乐器和情绪/主题类别的标签。数据集提供详细的数据分割,适用于研究人员,并报告了在五种不同标签集(流派、乐器、情绪/主题、前50名和总体)上的简单基线方法的性能。
数据集结构
数据字段
id: 曲目ID,整数类型artist_id: 艺术家ID,整数类型album_id: 专辑ID,整数类型duration_in_sec: 曲目时长,浮点数类型genres: 曲目所属的流派列表,字符串列表instruments: 曲目主要乐器列表,字符串列表moods: 曲目所属的情绪列表,字符串列表audio: 曲目音频数据
数据分割
- 训练集: 占总数据的90%
- 验证集: 占总数据的10%
许可证信息
- 许可证: Apache-2.0
引用信息
@conference {bogdanov2019mtg, author = "Bogdanov, Dmitry and Won, Minz and Tovstogan, Philip and Porter, Alastair and Serra, Xavier", title = "The MTG-Jamendo Dataset for Automatic Music Tagging", booktitle = "Machine Learning for Music Discovery Workshop, International Conference on Machine Learning (ICML 2019)", year = "2019", address = "Long Beach, CA, United States", url = "http://hdl.handle.net/10230/42015" }
搜集汇总
数据集介绍

构建方式
MTG-Jamendo数据集的构建,是基于Jamendo平台下遵循Creative Commons协议的音乐作品及其上传者提供的标签信息。该数据集整合了超过55,000条完整的音频轨道,涵盖195个分类标签,包括风格、乐器和情感/主题等类别。数据集的构建过程涉及对音乐资源的筛选、标签的整理以及数据切分,旨在为音乐自动标记领域提供高质量的研究资源。
特点
MTG-Jamendo数据集的特点在于其开放性、多样性和实用性。它提供了丰富的音乐风格、乐器和情感标签,允许研究人员在多个维度上对音乐内容进行分析。此外,数据集的平衡切分(训练集90%,验证集10%)使得其在模型训练和评估中具有较高的可靠性。数据集遵循Apache-2.0协议,保证了其使用的自由度。
使用方法
使用MTG-Jamendo数据集时,研究者可以依据数据集中的音频ID、艺术家ID、专辑ID等字段进行数据检索和处理。数据集支持多种标签集合的自动标记任务,包括风格、乐器、情感/主题等,同时也提供了整体的标记基准。用户可通过数据集的官方存储库获取数据,并根据Apache-2.0协议的条款进行相应的使用和分享。
背景与挑战
背景概述
MTG-Jamendo数据集,创建于2019年,由Dmitry Bogdanov、Minz Won等研究人员以及MTG(Music Technology Group)团队共同开发,旨在为音乐自动标记领域提供一个新的开放数据集。该数据集利用Jamendo平台下Creative Commons许可的音乐资源及其内容上传者提供的标签构建而成,包含超过55,000首完整的音频轨道和195个标签,涵盖类型、乐器、情感/主题等多个分类。MTG-Jamendo数据集的发布,对音乐信息检索、音乐推荐系统、音乐自动分类等领域产生了重要影响,为相关研究提供了丰富的实验资源。
当前挑战
在数据集构建过程中,研究人员面临了多方面的挑战。首先,确保音乐资源的版权合规性是关键一环,这要求严格筛选Creative Commons许可下的音乐作品。其次,如何准确有效地从内容上传者提供的标签中提取和整合有用的信息,也是构建数据集时的一大难题。在研究领域中,该数据集所解决的挑战包括如何利用机器学习技术对音乐进行自动标记,以及如何处理多标签数据带来的分类问题。同时,数据集的规模和多样性也为模型训练和评估带来了额外的挑战。
常用场景
经典使用场景
在音乐信息检索领域,MTG-Jamendo数据集以其丰富的音频资源与标签信息,成为音乐自动标记任务中的经典应用场景。该数据集提供了55,000余首完整的音频轨道,涵盖195个标签,涉及流派、乐器以及情感/主题等多个维度,为研究人员构建和评估音乐自动标记模型提供了坚实基础。
实际应用
在实践应用中,MTG-Jamendo数据集被广泛应用于音乐推荐系统、音乐搜索引擎以及智能音乐播放器的开发。它通过准确的标签信息,使得这些系统能够更加精准地理解用户偏好,提供个性化的音乐体验。
衍生相关工作
基于MTG-Jamendo数据集,学术界涌现了一系列相关研究工作,包括但不限于音乐情感识别、音乐风格分类以及乐器识别等。这些研究不仅拓宽了音乐信息检索的领域边界,也为音乐创作、分析与欣赏提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



