McGill Billboard dataset

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/corpusmusic/bb-cluster

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了来自麦吉尔大学的Billboard歌曲的和声分析数据，用于音乐和声分析和集群分析。

This dataset comprises harmonic analysis data of Billboard songs from McGill University, intended for use in music harmonic analysis and cluster analysis.

创建时间：

2016-05-19

原始信息汇总

数据集概述

数据集名称

bb-cluster

数据集内容

数据文件
- billboard-2.0-index.csv: 所有歌曲的索引。
- chord_by_chord.csv: 包含所有歌曲中的和弦，按顺序排列，使用原始和弦数据及parse.py提供的基于调性的和声功能表示。
- song_metadata_and_clusters.csv: 包含歌曲元数据及每个解决方案（1-15个群集）的群集分配。
- song_metadata_and_cluster_names.csv: 包含歌曲元数据及每个解决方案（1-15个群集）的群集名称。
- song_metadata.csv: 包含从BB源文件提取的每首歌曲的元数据。
- songbysongtransprob.csv: 包含曲集中每首歌曲的过渡概率分析。
分析脚本
- assembleClusterResultsTable.R: 将每个群集解决方案的输出与单个歌曲元数据合并，生成包含歌曲元数据和每个解决方案群集分配的单一表格。
- cluster_summary_tables.md: 包含每个群集的标准化平均过渡概率值的Markdown格式表格。
- clusters_to_tables.R: 从/cluster_tables/获取每首歌曲的过渡概率分析，并为每个解决方案中的每个群集创建平均概率表。
- kmeans_cluster.py: 对输出执行K-means群集分析，群集数从1到15。
- normalize_tables.py: 标准化每个群集摘要的过渡概率平均值，使行总和为1，并将表格写入Markdown格式。
- parse.py: 解析BB数据，将绝对和弦表示转换为基于调性的功能表示。
- readdata.py: 定义文件读取和解析函数，供transitionprob.py使用。
- solutions_to_tables.py: 合并歌曲过渡概率数据与群集分析结果，为每个群集输出包含该群集中每首歌曲过渡概率数据的表格。
- transitionprob.py: 计算每首歌曲中和弦到和弦过渡的概率，并输出包含每首歌曲结果的表格。
- visualizations.R: 从/cluster_summaries/加载每个群集的平均过渡概率数据，并生成可视化表。

数据集来源

McGill Billboard dataset
- 数据可从McGill Billboard dataset网站直接下载。

数据处理流程

运行parse.py以解析并将数据转换为基于调性的和弦信息。
运行transitionprob.py以分析每首歌曲的和弦过渡概率。
运行kmeans_cluster.py以执行群集分析算法。
运行assembleClusterResultsTable.R以创建歌曲、元数据和群集分配的列表。
运行solutions_to_tables.py以组装每个解决方案中每个群集的歌曲数据表。
运行clusters_to_tables.R以生成每个解决方案中每个群集的平均概率表。
运行normalize_tables.py以标准化表格并写入Markdown。
运行visualizations.R以生成可视化。

搜集汇总

数据集介绍

构建方式

McGill Billboard数据集的构建基于对音乐和声进程的深入分析。该数据集通过解析Billboard音乐库中的和弦数据，将其转换为基于调性的功能性符号表示，并进一步计算每首歌曲中和弦之间的过渡概率。随后，利用K-means聚类算法对这些过渡概率进行分析，生成从1到15个聚类的多种解决方案。最终，这些聚类结果与每首歌曲的元数据相结合，形成了一个包含歌曲元数据和聚类分配的综合表格。

特点

McGill Billboard数据集的显著特点在于其对音乐和声进程的精细分析。数据集不仅包含了原始的和弦数据，还提供了基于调性的功能性符号表示，使得研究者能够更深入地理解音乐的和声结构。此外，数据集通过多种聚类解决方案（1至15个聚类），为研究者提供了灵活的分析视角，能够揭示不同聚类数目下的音乐风格和和声模式。

使用方法

使用McGill Billboard数据集时，研究者首先需要下载并解析原始数据，随后运行一系列脚本以生成和弦过渡概率及聚类分析结果。具体步骤包括运行parse.py进行数据转换，transitionprob.py计算和弦过渡概率，kmeans_cluster.py进行聚类分析，以及assembleClusterResultsTable.R生成包含元数据和聚类分配的表格。最终，研究者可以通过visualizations.R生成可视化结果，进一步分析音乐的和声特征和风格。

背景与挑战

背景概述

McGill Billboard数据集是由麦吉尔大学音乐与数字媒体实验室（DDMAL）创建并维护的，专注于分析流行音乐中的和声进程。该数据集包含了从Billboard排行榜中提取的歌曲数据，涵盖了丰富的音乐和声信息。其核心研究问题在于通过机器学习和数据分析技术，探索和声进程与音乐风格、流派之间的关系。自创建以来，该数据集已成为音乐信息检索（MIR）领域的重要资源，为研究人员提供了深入分析流行音乐和声结构的基础。

当前挑战

McGill Billboard数据集在构建和分析过程中面临多项挑战。首先，数据集的原始和声数据需要经过复杂的解析和转换，以生成适合分析的键导向和声功能表示。其次，和声进程的复杂性使得在计算和声转换概率时需要高精度的算法支持。此外，如何通过聚类分析有效地将歌曲分类并揭示其内在的音乐风格和流派特征，也是该数据集面临的重要挑战。最后，数据集的规模和多样性要求高效的计算和存储解决方案，以确保分析结果的准确性和可重复性。

常用场景

经典使用场景

McGill Billboard数据集在音乐分析领域中被广泛用于研究歌曲和弦进程的和谐性与风格特征。通过该数据集，研究者能够分析每首歌曲的和弦转换概率，并利用K-means聚类算法对这些和弦进程进行分类，从而揭示不同音乐风格之间的内在联系。这一经典应用场景不仅为音乐理论研究提供了量化支持，还为音乐风格识别和分类提供了基础数据。

衍生相关工作

基于McGill Billboard数据集，许多相关研究工作得以展开，尤其是在音乐风格分类和和弦进程分析领域。例如，有研究者利用该数据集进行K-means聚类分析，揭示了不同音乐风格的和弦特征，并发表了相关论文。此外，该数据集还被用于开发音乐信息检索系统，帮助研究者更好地理解音乐作品的结构与风格特征。这些衍生工作不仅丰富了音乐分析的理论体系，还推动了音乐技术在实际应用中的发展。

数据集最近研究