db_data

github2018-09-20 更新2024-05-31 收录

下载链接：

https://github.com/corpusmusic/db_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含自Million Song Dataset (MSD), musiXmatch dataset, 和 Tagtraum datasets重叠的数据，共约1200首歌曲。目标是提供一个数据库独立的数据集，以便所有人都能轻松访问这一子集。数据集包括歌曲数据信息如艺术家名称、歌曲名称等，以及地理信息和相关分析脚本。

This dataset comprises approximately 1,200 songs that overlap from the Million Song Dataset (MSD), the musiXmatch dataset, and the Tagtraum datasets. The objective is to provide a database-independent dataset, enabling easy access to this subset for everyone. The dataset includes song data information such as artist names, song titles, as well as geographical information and related analysis scripts.

创建时间：

2016-05-20

原始信息汇总

数据集概述

数据集来源

本数据集包含来自Million Song Dataset (MSD)、musiXmatch dataset和Tagtraum datasets的交集数据。通过识别存在于所有三个数据集中的曲目ID，最终形成约1200首歌曲的数据集。

数据集内容

otherdata.csv: 包含Tagtraum和MXM的信息，其中genre字段可能包含两个值，使用符号分隔不同类型和词汇。详细字段包括：track_id, genre|genre, word|count。
subset/: 包含来自MSD的信息，如艺术家名称、歌曲名称等。
common_songs.txt: 显示MXM和Tagtraum数据集之间的交集曲目ID。
msd_tagtraum_cd2.cls: Tagtraum数据。

数据处理脚本

extract_data.py: 用于提取MSD、MXM和Tagtraum数据集之间的交集数据，并将数据转换为CSV格式。
/geography/extract_geography_data.py: 从MSD提取地理数据，包括track_id, artist_location, artist_latitude, artist_longitude，并输出多个相关文件。
/geography/convert_nan_coordinates.py: 通过地理编码获取geo_information_nan.csv文件中位置的纬度和经度。
/geography/geo_display.py: 使用Basemap包在地图上显示geo_information_coordinates.csv和geo_information_nan_location_coordinates.csv的坐标。
/geography/merged.py: 将otherdata.csv的genre属性合并到geo_information_coordinates.csv和geo_information_nan_location_coordinates.csv中。
/geography/kmean_cluster.py: 对geo_information_final.csv的纬度和经度运行KMeans算法，并添加cluster-id列。
/geography/geo_cluster_display.R: 用于显示地理信息的R脚本，需要安装ggmap和ggplot2包。
/geography/chisquared.py: 计算地理集群与音乐类型之间相关性的Chi-Squared统计量的Python脚本。

CSV生成器

getData.py: 从MSD抓取数据属性并转换为CSV格式的Python脚本，接受文本文件作为命令行参数。
get_info.py: 直接从命令行获取用户输入的字段，并转换为CSV格式。

数据集文件

otherdata.csv
subset/
common_songs.txt
msd_tagtraum_cd2.cls
geography/

搜集汇总

数据集介绍

构建方式

db_data数据集的构建采用了集成多个数据源的方式，以Million Song Dataset (MSD)、musiXmatch dataset以及Tagtraum datasets为基础，通过识别三个数据集中存在的共同track IDs，最终形成包含约1200首歌曲的子集。此过程旨在创建一个独立于数据库的子集，以便用户能够轻松访问。

特点

该数据集的特点在于其整合了来自不同数据源的歌曲信息，具有跨数据集的兼容性。其包含了Tagtraum和MXM的信息，并且可能包含双重genre字段，以符号'|'分隔。此外，数据集还提供了针对地理信息聚类的相关代码和数据。

使用方法

使用db_data数据集时，用户需要通过提供的Python脚本extract_data.py提取MSD、MXM和Tagtraum数据集之间的重叠数据。在执行脚本之前，需确保路径信息正确，并且机器上安装了Python 3。数据集还提供了用于地理聚类和卡方分析的脚本，以及将详细信息转换为CSV格式的工具。

背景与挑战

背景概述

db_data数据集是在音乐信息分析领域的重要研究资源，其创建旨在整合Million Song Dataset (MSD)、musiXmatch dataset以及Tagtraum datasets中的重合数据，以构建一个数据库独立的、便于广泛访问的数据子集。该数据集的构建时间为近年来，主要研究人员来自于多个音乐信息处理领域的研究团队。其核心研究问题聚焦于音乐数据的关联性分析，特别是音乐风格与地理位置之间的关联。db_data的问世，为音乐信息学研究提供了一个新的视角，对音乐风格地理分布的研究产生了显著影响。

当前挑战

在构建db_data数据集的过程中，研究人员面临了多方面的挑战。首先，数据集的整合工作需要精确识别三个数据源中的重合曲目，这一过程的技术难度较高。其次，数据集的构建还需考虑数据的可访问性和可用性，确保不同用户能够轻松获取数据。此外，在数据集的实际应用中，如何有效地进行地理聚类分析以及计算地理信息与音乐风格之间的相关性，也是当前研究面临的挑战。这些挑战不仅考验着数据集构建者的技术能力，也推动了相关领域的研究发展。

常用场景

经典使用场景

db_data数据集汇集了Million Song Dataset、musiXmatch dataset与Tagtraum datasets的交集数据，主要被用于音乐信息检索与音乐推荐系统的研究。其经典使用场景包括对音乐内容的分析，如通过歌曲的元数据和标签信息进行音乐分类、情感分析以及音乐地理分布研究。

衍生相关工作

基于db_data数据集，研究者们已经衍生出一系列相关工作，包括但不限于音乐地理聚类分析、音乐风格与地域关系的统计学研究，以及利用机器学习算法对音乐标签进行预测等，这些研究进一步扩展了音乐信息学的边界。

数据集最近研究