Million Song Dataset

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/daviscvance/MillionSongsDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含9个关系表，涵盖艺术家和歌曲级别的特征，如发布年份、艺术家位置的经纬度、歌曲时长、艺术家流行度评分、歌曲节奏等。此外，还包括用户生成的标签，用于描述艺术家的国籍、流派和描述性术语。

This dataset comprises nine relational tables, encompassing features at both the artist and song levels, such as release year, latitude and longitude of the artist's location, song duration, artist popularity score, and song tempo. Additionally, it includes user-generated tags that describe the artist's nationality, genre, and descriptive terms.

创建时间：

2018-02-25

原始信息汇总

数据集概述

数据来源

数据集来源于Million Song Dataset (MSD)。
数据由同事Aaron Munoz存储在Postgres数据库中，并被下载为CSV格式存储在本地。

数据内容

数据集包含9个关系表，涵盖艺术家级别和歌曲级别特征。
标签和用户生成的标签术语基于艺术家级别，但分析在歌曲级别进行。
从7,643个独特流派中选出12个流派，其中2个流派（爵士和摇滚）用于分析。
主要特征包括发布年份、艺术家位置的经纬度、歌曲时长、艺术家流行度得分、歌曲节奏等16个描述性数值。
使用独热编码处理2314个术语标签，创建了一个包含100万首歌曲的稀疏矩阵。
术语标签包括地理位置/国籍、流派或歌曲描述。

数据处理

使用降维技术将最终表的大小从18.5GB减少到2.6GB。
使用99.5%的数据进行分析和统计建模。

分析方法

由于流派间的重叠，特别是民谣和乡村音乐，采用了“一对其余”的方法进行多分类。
主要特征之间的相关性较弱，相关性范围在(-0.3, 0.3)。

模型设置

采用64/16/20的训练-验证-测试分割进行统计建模。
正类权重分别为摇滚76.7%和爵士47%。

统计建模

使用基本逻辑回归模型，发现艺术家熟悉度得分对摇滚歌曲的影响最大，其优势比在(25.23, 27.96)之间。
对于爵士乐，歌曲模式和时间签名置信度不是显著变量。
通过比较不同类平衡参数的模型，选择了平衡类权重以获得最佳的AUC评分。
使用GridSearchCV调整逻辑回归和决策树模型的超参数，最终选择了平衡逻辑回归模型。

模型性能

在爵士乐流派上，包含术语标签特征的模型获得了F1分数0.602，ROC-AUC分数0.6865，准确率0.6347，相比主要特征模型提高了5.35%。
在摇滚流派上，模型获得了F1分数0.7616，ROC-AUC分数0.7753，准确率0.6808，相比主要特征模型提高了6.38%。

结论

统计分析表明，用户生成的术语标签特征显著提高了爵士和摇滚歌曲的模型分类性能。
建议在现有的歌曲推荐平台上构建社交平台，以提高音乐分类的准确性约6%。

搜集汇总

数据集介绍

构建方式

Million Song Dataset（MSD）的构建基于从labrosa平台下载的原始数据，这些数据通过关系型数据库进行存储和管理。数据集包含9个关系表，涵盖了艺术家和歌曲层面的特征。为了增强分类模型的性能，引入了用户生成的标签数据，这些标签分为国家、流派和描述性词汇三大类，共计2314个独特术语。通过独热编码技术，这些标签被转换为稀疏矩阵，与原始的16个主要特征共同构成了用于分析的数据集。最终，通过降维技术，数据集的大小从18.5GB压缩至2.6GB，以便于后续的分析和建模。

特点

Million Song Dataset的显著特点在于其结合了结构化的音乐特征与用户生成的社交数据，这种双重数据源的结合显著提升了音乐流派分类的准确性。数据集包含了16个基础的音乐和艺术家特征，如发布年份、艺术家地理位置、歌曲时长等，以及2314个用户生成的标签，这些标签提供了额外的语义信息。此外，数据集的规模庞大，涵盖了百万首歌曲，且通过降维技术优化了存储和处理效率，使其在实际应用中具有高度的灵活性和扩展性。

使用方法

Million Song Dataset适用于多种音乐分析任务，尤其是流派分类和推荐系统。使用者可以通过导入CSV格式的数据集，结合机器学习模型进行分析。典型的使用流程包括数据预处理、特征选择、模型训练和评估。例如，可以利用逻辑回归、决策树等模型进行流派分类，并通过交叉验证和网格搜索优化模型参数。数据集的标签数据特别适合用于提升分类模型的性能，尤其是在处理不平衡数据集时，通过调整类别权重可以获得更好的分类效果。

背景与挑战

背景概述

Million Song Dataset（MSD）是由Thierry Bertin-Mahieux、Daniel P.W. Ellis、Brian Whitman和Paul Lamere于2011年在国际音乐信息检索会议（ISMIR 2011）上发布的，旨在为音乐信息检索领域提供一个大规模的、多维度的数据集。该数据集包含了100万首歌曲的详细信息，涵盖了艺术家和歌曲的多种特征，如发布年份、地理位置、歌曲时长、艺术家流行度等。此外，数据集还整合了用户生成的标签数据，这些标签分为国家、流派和描述性词汇三大类，极大地丰富了数据集的维度。MSD的发布为音乐流派分类、推荐系统等研究提供了宝贵的资源，推动了音乐信息检索技术的进步。

当前挑战

MSD在构建和应用过程中面临多项挑战。首先，数据集的规模庞大，原始数据量高达18.5GB，尽管通过降维技术将其压缩至2.6GB，但处理如此大规模的数据仍需高效的计算资源和存储方案。其次，数据集中存在显著的流派重叠问题，如民谣与乡村音乐的相似性，这为多分类任务带来了困难，限制了模型的分类精度。此外，用户生成的标签数据虽然丰富了模型的特征，但其稀疏性和多样性也增加了模型训练的复杂性。最后，尽管用户标签数据显著提升了模型的分类性能，但其潜在的噪声和不一致性仍需进一步处理和优化。

常用场景

经典使用场景

Million Song Dataset（MSD）的经典使用场景主要集中在音乐流派的分类与识别上。通过分析歌曲和艺术家的16个基本特征，如发布年份、地理位置、歌曲时长、艺术家知名度等，结合用户生成的标签数据，研究者能够构建高效的分类模型，特别是针对爵士和摇滚音乐的分类。这种结合了结构化数据与用户生成内容的方法，显著提升了模型的分类准确性，为音乐流派的自动识别提供了新的思路。

衍生相关工作

基于MSD的研究衍生了许多相关工作，特别是在音乐信息检索和机器学习领域。例如，研究者们进一步探索了如何利用深度学习模型处理音频特征，以提高音乐流派的分类精度。此外，MSD还被用于研究音乐情感分析、音乐生成模型以及跨文化音乐推荐系统。这些工作不仅扩展了MSD的应用范围，还为音乐领域的智能化发展提供了丰富的理论和实践基础。

数据集最近研究