SpotifyFeatures_sample

Hugging Face2025-11-19 更新2025-11-20 收录

下载链接：

https://huggingface.co/datasets/orianrivlin/SpotifyFeatures_sample

下载链接

链接失效反馈

官方服务：

资源简介：

Spotify音频特征样本数据集包含大约10,000个音频样本，每个样本包含18个数值特征，旨在分析这些特征与歌曲在Spotify上的流行度之间的关系。数据集中的特征包括舞蹈性、能量、响度、语言性、原声性、乐器性、活跃度、情感值、节奏和持续时间等。数据集的目标列是流行度，范围从0到100，数据来源于Spotify Tracks DB。

创建时间：

2025-11-09

原始信息汇总

Spotify Features (Sample) 数据集概述

数据集基本信息

数据集名称: Spotify Features (Sample)
文件名称: SpotifyFeatures_sample.csv
数据规模: 约10,000行 × 18列（主要为数值型数据）
目标变量: popularity（取值范围0-100）
数据来源: Spotify Tracks DB（通过Kaggle获取）

主要数值特征

danceability（可舞性）
energy（能量）
loudness（响度）
speechiness（语音度）
acousticness（原声度）
instrumentalness（器乐度）
liveness（现场感）
valence（情绪积极度）
tempo（节奏）
duration_ms（时长）

数据预处理

移除重复行
检查缺失值（关键列无缺失）
删除核心数值特征中存在NA值的行
构建仅包含数值特征的DataFrame用于统计分析和相关性计算
最终数据：10,000行 × 11个数值特征

探索性数据分析结果

特征分布

流行度集中在40-60区间，极热门曲目（80+）较少
可舞性呈钟形分布，均值约0.56
能量偏向较高值（多数曲目在0.7-0.9区间）
情绪积极度分布广泛，平均值为中性

与流行度的相关性

特征	与流行度的相关性
响度	+0.31
能量	+0.27
可舞性	+0.06
节奏	+0.02
情绪积极度	−0.06
原声度	−0.35

主要发现

Spotify上的流行度分布不均：仅少数曲目能达到极高流行度
响度和能量与流行度呈最强正相关，原声度与流行度呈最强负相关
高流行度歌曲倾向于现代制作风格（响亮、高能量），纯原声/器乐曲目平均表现较差

数据集文件

SpotifyFeatures_sample.csv - 数据集样本
spotify_eda_notebook.ipynb - 代码和图表
materials/ - README中使用的导出材料

分析说明

保留异常值（超长曲目；极低/极高流行度）作为真实观测值
相关性总体较为温和（音乐成功受多因素影响），结果描述的是关联性而非因果关系

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，SpotifyFeatures_sample数据集源自Spotify曲库的公开音频特征数据，通过系统化采样流程构建而成。原始数据经过严格的清洗处理，包括剔除重复记录、验证核心数值特征的完整性，并移除了关键字段存在缺失值的条目，最终形成包含约10,000条有效样本的数据集合。该数据集聚焦于18个维度特征，其中11个核心数值特征经过标准化处理，为音乐流行度预测研究提供了经过严格质控的基础数据。

特点

该数据集呈现出音乐特征的多维分布特性，其目标变量流行度呈现典型的右偏分布，多数样本集中在40-60区间。音频特征中能量值呈现正向偏态，舞蹈性指标则符合钟形分布，而效价特征展现出均匀离散特性。值得注意的是，特征与流行度的相关性分析显示，响度与能量分别保持0.31和0.27的正相关，而原声度则表现出-0.35的显著负相关，这些特征模式为理解当代流行音乐的声学特质提供了重要线索。

使用方法

研究者可借助该数据集开展音乐流行度预测模型的构建与验证工作。通过相关性热图分析可识别关键特征维度，利用分位数划分方法能够对比不同流行度区间的特征差异。数据集中标准化的数值特征可直接应用于回归分析，而分类任务中可将流行度转换为二分变量进行处理。建议结合可视化工具观察特征分布规律，并注意音乐成功因素的多维性特点，在建模过程中合理控制变量间的交互影响。

背景与挑战

背景概述

随着数字音乐平台的兴起，音乐推荐系统成为信息检索领域的重要研究方向。SpotifyFeatures_sample数据集源于Kaggle平台对Spotify曲库的抽样，旨在探索音频特征与流行度之间的关联机制。该数据集收录约一万条音轨记录，涵盖舞蹈性、能量度、响度等18维声学特征，通过量化分析揭示当代音乐消费市场的审美偏好，为音乐信息检索与个性化推荐算法提供关键数据支撑。

当前挑战

音乐流行度预测面临多重挑战：首先需解决高维声学特征与主观流行度间的非线性映射问题，如数据中仅存在0.31的弱相关性；其次在构建过程中需处理原始曲库的采样偏差，避免头部效应影响长尾分布建模。此外，声学特征间的多重共线性可能掩盖关键影响因素，而文化差异与时间演化因素进一步增加了跨场景应用的难度。

常用场景

经典使用场景

在音乐信息检索领域，SpotifyFeatures_sample数据集常被用于探索音频特征与歌曲流行度之间的关联性。研究人员通过分析如能量、响度、舞蹈性等数值特征，构建统计模型以揭示热门歌曲的声学共性。该数据集支持相关性分析、可视化探索及机器学习建模，为理解音乐偏好提供了量化基础。

解决学术问题

该数据集有效解决了音乐流行度预测中的特征归因问题，通过量化分析揭示了响度、能量与流行度呈正相关，而原声特质呈负相关的规律。这一发现深化了对音乐市场成功要素的认知，突破了传统主观评价的局限，为计算音乐学提供了可复现的实证研究框架。

衍生相关工作

基于该数据集衍生的经典研究包括多模态音乐分类模型、流行度预测神经网络架构，以及结合社交数据的混合推荐系统。这些工作进一步拓展了声学特征与用户行为、文化语境之间的交叉研究，推动了音乐信息检索与计算社会科学领域的融合创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集