SpotifyFeatures_sample
收藏Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/orianrivlin/SpotifyFeatures_sample
下载链接
链接失效反馈官方服务:
资源简介:
Spotify音频特征样本数据集包含大约10,000个音频样本,每个样本包含18个数值特征,旨在分析这些特征与歌曲在Spotify上的流行度之间的关系。数据集中的特征包括舞蹈性、能量、响度、语言性、原声性、乐器性、活跃度、情感值、节奏和持续时间等。数据集的目标列是流行度,范围从0到100,数据来源于Spotify Tracks DB。
创建时间:
2025-11-09
原始信息汇总
Spotify Features (Sample) 数据集概述
数据集基本信息
- 数据集名称: Spotify Features (Sample)
- 文件名称:
SpotifyFeatures_sample.csv - 数据规模: 约10,000行 × 18列(主要为数值型数据)
- 目标变量:
popularity(取值范围0-100) - 数据来源: Spotify Tracks DB(通过Kaggle获取)
主要数值特征
danceability(可舞性)energy(能量)loudness(响度)speechiness(语音度)acousticness(原声度)instrumentalness(器乐度)liveness(现场感)valence(情绪积极度)tempo(节奏)duration_ms(时长)
数据预处理
- 移除重复行
- 检查缺失值(关键列无缺失)
- 删除核心数值特征中存在NA值的行
- 构建仅包含数值特征的DataFrame用于统计分析和相关性计算
- 最终数据:10,000行 × 11个数值特征
探索性数据分析结果
特征分布
- 流行度集中在40-60区间,极热门曲目(80+)较少
- 可舞性呈钟形分布,均值约0.56
- 能量偏向较高值(多数曲目在0.7-0.9区间)
- 情绪积极度分布广泛,平均值为中性
与流行度的相关性
| 特征 | 与流行度的相关性 |
|---|---|
| 响度 | +0.31 |
| 能量 | +0.27 |
| 可舞性 | +0.06 |
| 节奏 | +0.02 |
| 情绪积极度 | −0.06 |
| 原声度 | −0.35 |
热门与非热门曲目对比(前10% vs 后10%)
- 能量和可舞性在热门曲目中较高
- 节奏差异不明显
- 情绪积极度在热门曲目中略高
主要发现
- Spotify上的流行度分布不均:仅少数曲目能达到极高流行度
- 响度和能量与流行度呈最强正相关,原声度与流行度呈最强负相关
- 高流行度歌曲倾向于现代制作风格(响亮、高能量),纯原声/器乐曲目平均表现较差
数据集文件
SpotifyFeatures_sample.csv- 数据集样本spotify_eda_notebook.ipynb- 代码和图表materials/- README中使用的导出材料
分析说明
- 保留异常值(超长曲目;极低/极高流行度)作为真实观测值
- 相关性总体较为温和(音乐成功受多因素影响),结果描述的是关联性而非因果关系
搜集汇总
数据集介绍

构建方式
在音乐信息检索领域,SpotifyFeatures_sample数据集源自Spotify曲库的公开音频特征数据,通过系统化采样流程构建而成。原始数据经过严格的清洗处理,包括剔除重复记录、验证核心数值特征的完整性,并移除了关键字段存在缺失值的条目,最终形成包含约10,000条有效样本的数据集合。该数据集聚焦于18个维度特征,其中11个核心数值特征经过标准化处理,为音乐流行度预测研究提供了经过严格质控的基础数据。
特点
该数据集呈现出音乐特征的多维分布特性,其目标变量流行度呈现典型的右偏分布,多数样本集中在40-60区间。音频特征中能量值呈现正向偏态,舞蹈性指标则符合钟形分布,而效价特征展现出均匀离散特性。值得注意的是,特征与流行度的相关性分析显示,响度与能量分别保持0.31和0.27的正相关,而原声度则表现出-0.35的显著负相关,这些特征模式为理解当代流行音乐的声学特质提供了重要线索。
使用方法
研究者可借助该数据集开展音乐流行度预测模型的构建与验证工作。通过相关性热图分析可识别关键特征维度,利用分位数划分方法能够对比不同流行度区间的特征差异。数据集中标准化的数值特征可直接应用于回归分析,而分类任务中可将流行度转换为二分变量进行处理。建议结合可视化工具观察特征分布规律,并注意音乐成功因素的多维性特点,在建模过程中合理控制变量间的交互影响。
背景与挑战
背景概述
随着数字音乐平台的兴起,音乐推荐系统成为信息检索领域的重要研究方向。SpotifyFeatures_sample数据集源于Kaggle平台对Spotify曲库的抽样,旨在探索音频特征与流行度之间的关联机制。该数据集收录约一万条音轨记录,涵盖舞蹈性、能量度、响度等18维声学特征,通过量化分析揭示当代音乐消费市场的审美偏好,为音乐信息检索与个性化推荐算法提供关键数据支撑。
当前挑战
音乐流行度预测面临多重挑战:首先需解决高维声学特征与主观流行度间的非线性映射问题,如数据中仅存在0.31的弱相关性;其次在构建过程中需处理原始曲库的采样偏差,避免头部效应影响长尾分布建模。此外,声学特征间的多重共线性可能掩盖关键影响因素,而文化差异与时间演化因素进一步增加了跨场景应用的难度。
常用场景
经典使用场景
在音乐信息检索领域,SpotifyFeatures_sample数据集常被用于探索音频特征与歌曲流行度之间的关联性。研究人员通过分析如能量、响度、舞蹈性等数值特征,构建统计模型以揭示热门歌曲的声学共性。该数据集支持相关性分析、可视化探索及机器学习建模,为理解音乐偏好提供了量化基础。
解决学术问题
该数据集有效解决了音乐流行度预测中的特征归因问题,通过量化分析揭示了响度、能量与流行度呈正相关,而原声特质呈负相关的规律。这一发现深化了对音乐市场成功要素的认知,突破了传统主观评价的局限,为计算音乐学提供了可复现的实证研究框架。
衍生相关工作
基于该数据集衍生的经典研究包括多模态音乐分类模型、流行度预测神经网络架构,以及结合社交数据的混合推荐系统。这些工作进一步拓展了声学特征与用户行为、文化语境之间的交叉研究,推动了音乐信息检索与计算社会科学领域的融合创新。
以上内容由遇见数据集搜集并总结生成



