Million Song Dataset

github2021-09-30 更新2024-05-31 收录

下载链接：

https://github.com/HolyZero/Million-Song-Datasets-EDA

下载链接

链接失效反馈

官方服务：

资源简介：

包含100万首歌曲的元数据和声音分析数据，用于音乐分析和研究。

This dataset comprises metadata and audio analysis data for one million songs, intended for music analysis and research.

创建时间：

2016-05-02

原始信息汇总

数据集概述

数据来源

Sound Analysis
- 来源：Million Song Dataset
- 格式：.h5
- 使用情况：
  - 对所有1,000,000首歌曲的元数据进行探索性数据分析（元数据大小：300 MB）
  - 从随机子集中提取10,000首歌曲的声音分析数据（声音分析数据大小：1.8 GB）
    - 时间结构分析：如节拍/小节长度分布
    - 响度、音色和音高分析
User Preference
- 来源：Echo Nest Taste Profile Data
- 格式：每首歌曲的用户播放次数
- 使用情况：利用播放次数数据生成“用户定义”的歌曲相似度度量，并尝试使用随机森林和LASSO选择对决定此度量最重要的声音特征（来自数据集1）
Lyrics Bag-of-Words
- 来源：musiXmatch dataset
- 格式：.db(BoW)
- 使用情况：实施基于10和15个主题的Latent Dirichlet Allocation主题模型，独立于其他集群生成，以观察声音特征生成的集群是否在“文学上”有所不同
Genre
- 来源：Tagtraum Genre Annotations
- 格式：.cls
- 使用情况：未详细说明

方法论

基于歌曲特征对歌曲进行集群
使用歌词Bag-of-Words数据进行主题建模，并比较这两种集群结果的差异/相似性
利用播放次数数据选择对“群体定义的相似性”决定性重要的歌曲特征，然后仅使用这些选定的声音特征对歌曲进行再次集群

结论

基于上述结果得出结论。

搜集汇总

数据集介绍

构建方式

Million Song Dataset的构建基于多源数据的整合与深度分析。首先，数据集从Million Song Dataset中提取了100万首歌曲的元数据，并从中随机选取了1万首歌曲进行声音特征分析，涵盖了节奏、响度、音色和音高等维度。其次，结合Echo Nest Taste Profile Subset的用户播放数据，通过随机森林和LASSO回归筛选出对用户偏好影响最大的声音特征。此外，还引入了musiXmatch数据集的歌词Bag-of-Words模型，通过潜在狄利克雷分配（LDA）进行主题建模，探索歌词与声音特征之间的关系。最后，利用Tagtraum Genre Annotations的流派标注数据，进一步丰富了数据集的分类维度。

特点

Million Song Dataset的特点在于其多维度的音乐特征覆盖与跨领域数据的深度融合。数据集不仅包含丰富的元数据，如歌曲的节奏、响度、音色和音高，还通过用户播放数据量化了用户偏好，提供了基于用户行为的相似性度量。歌词的Bag-of-Words模型为音乐主题分析提供了文本层面的支持，而流派标注数据则为音乐分类提供了权威的参考。这种多源数据的整合使得数据集在音乐信息检索、推荐系统和音乐分析等领域具有广泛的应用潜力。

使用方法

Million Song Dataset的使用方法灵活多样，适用于多种研究场景。研究者可以通过HDF5格式直接访问数据集中的元数据和声音特征，进行音乐特征的可视化与分析。用户播放数据可用于构建个性化推荐模型，而歌词的Bag-of-Words模型则支持基于主题的音乐聚类分析。此外，流派标注数据可用于音乐分类任务的模型训练与评估。数据集的多维度特性使其能够支持从基础的音乐特征分析到复杂的用户行为建模等多种研究需求。

背景与挑战

背景概述

Million Song Dataset（百万歌曲数据集）是由哥伦比亚大学的LabROSA实验室于2011年发布的一个大规模音乐数据集，旨在为音乐信息检索（MIR）领域提供丰富的研究资源。该数据集包含了超过一百万首歌曲的元数据、音频特征、用户播放记录以及歌词信息，涵盖了从音乐结构分析到用户行为研究的多个维度。核心研究问题聚焦于如何通过计算模型理解音乐的复杂特征及其与用户偏好之间的关系。该数据集的发布极大地推动了音乐推荐系统、音乐分类和情感分析等领域的研究进展，成为音乐计算领域的重要基准。

当前挑战

Million Song Dataset在解决音乐信息检索问题时面临多重挑战。首先，音乐数据的多模态特性使得如何有效整合音频特征、歌词信息和用户行为数据成为一个复杂问题。其次，音频特征的高维度和非线性关系增加了特征提取和模型训练的难度。在数据构建过程中，研究人员需处理大规模数据的存储与计算问题，尤其是音频数据的处理对计算资源提出了极高要求。此外，用户播放记录的稀疏性和噪声数据也对模型的鲁棒性提出了挑战。这些挑战共同构成了该数据集在音乐计算领域中的核心难题。

常用场景

经典使用场景

Million Song Dataset（百万歌曲数据集）在音乐信息检索和音乐推荐系统中扮演着核心角色。该数据集通过提供丰富的音频特征和元数据，使得研究人员能够深入分析音乐的结构、风格和情感表达。经典的使用场景包括音乐特征提取、音乐分类和聚类分析，这些分析帮助理解音乐的内在属性及其与听众偏好的关联。

实际应用

在实际应用中，Million Song Dataset被广泛用于构建和测试音乐推荐系统，如Spotify和Apple Music等流媒体服务。这些系统利用数据集中的音频特征和用户行为数据，为用户提供个性化的音乐推荐，极大地提升了用户体验和平台的用户粘性。

衍生相关工作

基于Million Song Dataset，许多经典的研究工作得以展开，包括音乐特征提取算法的改进、音乐情感分析模型的开发以及基于深度学习的音乐推荐系统的研究。这些工作不仅深化了对音乐数据的理解，也推动了音乐信息检索技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集