music-genres-dataset

github2023-06-23 更新2024-05-31 收录

下载链接：

https://github.com/trebi/music-genres-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含1494个音乐流派的数据集，每个流派有200首歌曲。每首歌曲提供以下属性：艺术家、歌曲名称、在列表中的位置、主流派、子流派（含流行度计数）、标签（非现有流派的标签，如情感等，也含流行度计数）。

This dataset comprises 1,494 music genres, with each genre containing 200 songs. Each song is annotated with the following attributes: artist, song title, position in the list, main genre, sub-genre (including popularity count), and tags (labels not belonging to existing genres, such as emotions, also including popularity counts).

创建时间：

2017-02-23

原始信息汇总

Music genres dataset 概述

数据集描述

规模: 包含1494个音乐流派。
歌曲数量: 每个流派包含200首歌曲。
歌曲属性:
- 艺术家
- 歌曲名称
- 在流派列表中的位置
- 主流派
- 子流派（附带流行度计数，可解释为子流派的权重）
- 标签（非现有流派的标签，如情感描述，"我最喜欢的10首歌"等；也附带流行度计数）

数据来源

数据集基于 EveryNoise 网站的音乐流派和歌曲列表，并结合了 Spotify 和 Last.FM 的数据。

数据下载

数据集可下载为ZIP文件，链接为 ./data.zip。

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个音乐平台的数据构建而成，主要来源包括EveryNoise、Spotify和Last.FM。数据采集过程使用了Scrapy框架，通过编写特定的爬虫脚本，分别从这些平台抓取音乐流派、歌曲、播放列表和标签等信息。抓取的数据以JSON格式存储，随后通过Python脚本转换为CSV格式，便于进一步导入数据库进行管理和分析。整个数据采集和转换过程耗时约2.5小时，生成的数据量约为100MB。

使用方法

用户可通过下载数据集的ZIP文件获取原始数据，或使用提供的Python脚本将数据导入数据库进行进一步处理。数据集支持多种分析场景，如基于流派的音乐推荐、标签情感分析、以及子流派流行度研究等。用户还可以根据需求自定义SQL查询，提取特定流派或标签的歌曲信息。此外，数据集的结构化设计使其易于与机器学习模型结合，用于训练和评估音乐分类算法。

背景与挑战

背景概述

音乐流派数据集（music-genres-dataset）是一个涵盖1494种音乐流派、每种流派包含200首歌曲的综合性数据集。该数据集由EveryNoise、Spotify和Last.FM等多个数据源整合而成，旨在为音乐信息检索、流派分类及推荐系统等领域提供高质量的数据支持。数据集不仅包含歌曲的基本信息，如艺术家、歌曲名称和流派，还提供了子流派及其流行度权重、情感标签等丰富属性。该数据集的创建时间不详，但其整合了多个权威音乐平台的开放数据，为音乐分析研究提供了重要的基础资源。通过该数据集，研究人员可以深入探索音乐流派的多样性及其与用户偏好之间的关系，推动了音乐信息学领域的发展。

当前挑战

音乐流派数据集在构建和应用过程中面临多重挑战。首先，音乐流派的定义具有主观性和模糊性，不同平台对同一流派的分类标准可能存在差异，这导致数据整合时需解决流派标签不一致的问题。其次，数据集依赖于网络爬虫技术从多个平台抓取数据，数据源的动态变化和API限制增加了数据采集的复杂性和时间成本。此外，数据集中包含的子流派和情感标签虽然丰富了信息维度，但其流行度权重的计算和标签的准确性仍需进一步验证。最后，如何将大规模的音乐数据高效导入数据库并进行后续分析，也是技术实现中的一大挑战。这些问题的解决对于提升数据集的可靠性和实用性至关重要。

常用场景

经典使用场景

在音乐信息检索和音乐推荐系统的研究中，music-genres-dataset被广泛用于音乐风格的分类和推荐算法的训练。该数据集包含了1494种音乐风格，每种风格下包含200首歌曲，每首歌曲都详细标注了艺术家、歌曲名称、主风格、子风格及其流行度等属性，为研究者提供了丰富的音乐风格分析基础。

解决学术问题

该数据集解决了音乐风格自动分类和音乐推荐系统中的关键问题。通过提供详细的音乐风格标签和子风格流行度数据，研究者可以开发出更精确的音乐分类算法和个性化推荐系统，从而提升音乐信息检索的准确性和用户体验。

实际应用

在实际应用中，music-genres-dataset被用于音乐流媒体平台的推荐系统开发。通过分析用户的听歌历史和偏好，结合数据集中的音乐风格信息，平台能够为用户提供更加个性化的音乐推荐，增强用户粘性和满意度。

数据集最近研究