The-Spotify-Hit-Predictor-Dataset

github2024-02-12 更新2024-05-31 收录

下载链接：

https://github.com/fortyTwo102/The-Spotify-Hit-Predictor-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用Spotify的Web API获取的音乐曲目特征数据集，根据作者设定的标准将曲目标记为Hit或Flop。该数据集可用于构建分类模型，预测曲目是否会成为Hit。

This is a dataset of music track features obtained using Spotify's Web API, where tracks are labeled as Hit or Flop based on criteria set by the author. The dataset can be used to build classification models to predict whether a track will become a Hit.

创建时间：

2020-02-01

原始信息汇总

数据集概述

数据集内容

本数据集包含使用Spotify的Web API获取的曲目特征，每个曲目根据作者设定的标准被标记为1（Hit）或0（Flop）。

数据集用途

该数据集可用于构建分类模型，预测曲目是否可能成为主流中的流行曲目（Hit）。

数据集属性

track: 曲目名称。
artist: 艺术家名称。
uri: 曲目的资源标识符。
danceability: 描述曲目适合跳舞的程度，范围从0.0（最不适合）到1.0（最适合）。
energy: 从0.0到1.0的感知强度和活动度量，通常高能量的曲目感觉快速、响亮和嘈杂。
key: 曲目的估计整体音调，使用标准音调类表示法，未检测到音调时值为-1。
loudness: 曲目的整体响度，以分贝（dB）为单位，通常范围在-60到0 dB之间。
mode: 曲目的调式（大调或小调），大调为1，小调为0。
speechiness: 检测曲目中存在的口语词，范围从0.0（非口语）到1.0（纯口语）。
acousticness: 曲目为原声的置信度，范围从0.0到1.0，1.0表示高度置信为原声。
instrumentalness: 预测曲目是否包含无人声，值越接近1.0，越可能是纯乐器曲目。
liveness: 检测曲目中是否存在现场表演的观众，值高于0.8表示很可能是现场录音。
valence: 描述曲目的音乐积极性，范围从0.0（负面）到1.0（正面）。
tempo: 曲目的估计整体节奏，以每分钟节拍数（BPM）为单位。
duration_ms: 曲目时长，以毫秒为单位。
time_signature: 曲目的估计整体时间签名。
chorus_hit: 作者估计的曲目合唱开始的时间戳，以毫秒为单位。
sections: 曲目中的段落数量。
target: 曲目的目标变量，1表示该曲目至少一次出现在Billboard的每周Hot-100曲目列表中，0表示未出现。

标记为Flop的条件

曲目及其艺术家未出现在该十年的Hit列表中。
曲目属于非主流或前卫的流派。
曲目的流派在该十年中没有曲目出现在Hit列表中。
曲目市场必须包含US。

搜集汇总

数据集介绍

构建方式

The-Spotify-Hit-Predictor-Dataset的构建依托于Spotify Web API，通过该API获取了大量音乐曲目的详细特征数据。每首曲目根据作者设定的标准被标记为‘1’（热门）或‘0’（非热门）。作者通过结合Billboard的Hot-100榜单数据，筛选出在特定年代内至少一次进入榜单的曲目作为‘热门’样本，而未进入榜单且符合特定非主流或前卫音乐风格的曲目则被标记为‘非热门’。此外，曲目还需满足市场为美国的条件，以确保数据的地域相关性。

特点

该数据集涵盖了丰富的音乐特征，包括舞蹈性、能量、音调、响度、模式、语音度、声学性、乐器性、现场感、情感、节奏、时长、拍号等。这些特征通过Spotify的音频分析API提取，能够全面反映曲目的音乐属性。数据集还包含了作者对副歌起始时间、曲目段落数量等高级特征的估计，进一步增强了数据的深度和多样性。每首曲目的目标变量明确，为构建分类模型提供了清晰的标签。

使用方法

该数据集适用于构建分类模型，预测音乐曲目是否能够成为热门。用户可以通过分析数据集中的音乐特征，训练机器学习模型，识别出影响曲目流行度的关键因素。数据集的结构清晰，特征丰富，可直接用于数据预处理、特征工程和模型训练。此外，用户还可以结合Spotify和Billboard的API，进一步扩展数据集，或验证模型的预测效果。

背景与挑战

背景概述

The-Spotify-Hit-Predictor-Dataset 是一个基于 Spotify Web API 获取的音乐曲目特征数据集，旨在通过机器学习模型预测某首曲目是否能够成为热门歌曲。该数据集由匿名作者创建，主要利用 Spotify 和 Billboard 的 API 获取曲目的音频特征和流行度信息。数据集中的曲目被标记为 'Hit' 或 'Flop'，其中 'Hit' 表示该曲目曾进入 Billboard Hot-100 榜单，而 'Flop' 则表示该曲目未进入榜单且属于非主流或前卫音乐类型。该数据集的创建为音乐流行度预测研究提供了重要的数据支持，推动了音乐信息检索和推荐系统领域的发展。

当前挑战

The-Spotify-Hit-Predictor-Dataset 在解决音乐流行度预测问题时面临多重挑战。首先，音乐流行度受多种复杂因素影响，包括文化背景、听众偏好和市场营销策略等，仅依靠音频特征难以全面捕捉这些因素。其次，数据集中 'Hit' 和 'Flop' 的标签定义依赖于 Billboard Hot-100 榜单，这可能忽略了其他流行度指标或区域性差异。在数据集构建过程中，作者需要从 Spotify 和 Billboard API 中提取并整合大量数据，确保数据的准确性和一致性。此外，如何处理非主流音乐类型的多样性和复杂性，以及如何平衡数据集中不同音乐类型的代表性，也是构建过程中需要克服的技术难题。

常用场景

经典使用场景

在音乐信息检索和推荐系统领域，The-Spotify-Hit-Predictor-Dataset被广泛用于构建分类模型，以预测某首歌曲是否能够成为热门单曲。通过分析歌曲的多种音频特征，如舞蹈性、能量、音调等，研究人员能够训练机器学习模型，识别出潜在的热门歌曲。这一数据集的应用不仅限于学术研究，还为音乐产业提供了数据驱动的决策支持。

衍生相关工作

基于The-Spotify-Hit-Predictor-Dataset，许多经典研究工作得以展开。例如，研究者开发了基于深度学习的音乐流行度预测模型，进一步提升了预测的准确性。此外，该数据集还催生了多篇关于音乐特征分析与市场趋势预测的学术论文，推动了音乐信息检索领域的发展。这些衍生工作不仅丰富了数据集的应用场景，还为音乐产业的数字化转型提供了理论支持。

数据集最近研究