five

SpotifyFeatures_sample

收藏
Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/orianrivlin/SpotifyFeatures_sample
下载链接
链接失效反馈
官方服务:
资源简介:
Spotify音频特征样本数据集包含大约10,000个音频样本,每个样本包含18个数值特征,旨在分析这些特征与歌曲在Spotify上的流行度之间的关系。数据集中的特征包括舞蹈性、能量、响度、语言性、原声性、乐器性、活跃度、情感值、节奏和持续时间等。数据集的目标列是流行度,范围从0到100,数据来源于Spotify Tracks DB。
创建时间:
2025-11-09
原始信息汇总

Spotify Features (Sample) 数据集概述

数据集基本信息

  • 数据集名称: Spotify Features (Sample)
  • 文件名称: SpotifyFeatures_sample.csv
  • 数据规模: 约10,000行 × 18列(主要为数值型数据)
  • 目标变量: popularity(取值范围0-100)
  • 数据来源: Spotify Tracks DB(通过Kaggle获取)

主要数值特征

  • danceability(可舞性)
  • energy(能量)
  • loudness(响度)
  • speechiness(语音度)
  • acousticness(原声度)
  • instrumentalness(器乐度)
  • liveness(现场感)
  • valence(情绪积极度)
  • tempo(节奏)
  • duration_ms(时长)

数据预处理

  • 移除重复行
  • 检查缺失值(关键列无缺失)
  • 删除核心数值特征中存在NA值的行
  • 构建仅包含数值特征的DataFrame用于统计分析和相关性计算
  • 最终数据:10,000行 × 11个数值特征

探索性数据分析结果

特征分布

  • 流行度集中在40-60区间,极热门曲目(80+)较少
  • 可舞性呈钟形分布,均值约0.56
  • 能量偏向较高值(多数曲目在0.7-0.9区间)
  • 情绪积极度分布广泛,平均值为中性

与流行度的相关性

特征 与流行度的相关性
响度 +0.31
能量 +0.27
可舞性 +0.06
节奏 +0.02
情绪积极度 −0.06
原声度 −0.35

热门与非热门曲目对比(前10% vs 后10%)

  • 能量可舞性在热门曲目中较高
  • 节奏差异不明显
  • 情绪积极度在热门曲目中略高

主要发现

  • Spotify上的流行度分布不均:仅少数曲目能达到极高流行度
  • 响度和能量与流行度呈最强正相关,原声度与流行度呈最强负相关
  • 高流行度歌曲倾向于现代制作风格(响亮、高能量),纯原声/器乐曲目平均表现较差

数据集文件

  • SpotifyFeatures_sample.csv - 数据集样本
  • spotify_eda_notebook.ipynb - 代码和图表
  • materials/ - README中使用的导出材料

分析说明

  • 保留异常值(超长曲目;极低/极高流行度)作为真实观测值
  • 相关性总体较为温和(音乐成功受多因素影响),结果描述的是关联性而非因果关系
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐信息检索领域,SpotifyFeatures_sample数据集源自Spotify曲库的公开音频特征数据,通过系统化采样流程构建而成。原始数据经过严格的清洗处理,包括剔除重复记录、验证核心数值特征的完整性,并移除了关键字段存在缺失值的条目,最终形成包含约10,000条有效样本的数据集合。该数据集聚焦于18个维度特征,其中11个核心数值特征经过标准化处理,为音乐流行度预测研究提供了经过严格质控的基础数据。
特点
该数据集呈现出音乐特征的多维分布特性,其目标变量流行度呈现典型的右偏分布,多数样本集中在40-60区间。音频特征中能量值呈现正向偏态,舞蹈性指标则符合钟形分布,而效价特征展现出均匀离散特性。值得注意的是,特征与流行度的相关性分析显示,响度与能量分别保持0.31和0.27的正相关,而原声度则表现出-0.35的显著负相关,这些特征模式为理解当代流行音乐的声学特质提供了重要线索。
使用方法
研究者可借助该数据集开展音乐流行度预测模型的构建与验证工作。通过相关性热图分析可识别关键特征维度,利用分位数划分方法能够对比不同流行度区间的特征差异。数据集中标准化的数值特征可直接应用于回归分析,而分类任务中可将流行度转换为二分变量进行处理。建议结合可视化工具观察特征分布规律,并注意音乐成功因素的多维性特点,在建模过程中合理控制变量间的交互影响。
背景与挑战
背景概述
随着数字音乐平台的兴起,音乐推荐系统成为信息检索领域的重要研究方向。SpotifyFeatures_sample数据集源于Kaggle平台对Spotify曲库的抽样,旨在探索音频特征与流行度之间的关联机制。该数据集收录约一万条音轨记录,涵盖舞蹈性、能量度、响度等18维声学特征,通过量化分析揭示当代音乐消费市场的审美偏好,为音乐信息检索与个性化推荐算法提供关键数据支撑。
当前挑战
音乐流行度预测面临多重挑战:首先需解决高维声学特征与主观流行度间的非线性映射问题,如数据中仅存在0.31的弱相关性;其次在构建过程中需处理原始曲库的采样偏差,避免头部效应影响长尾分布建模。此外,声学特征间的多重共线性可能掩盖关键影响因素,而文化差异与时间演化因素进一步增加了跨场景应用的难度。
常用场景
经典使用场景
在音乐信息检索领域,SpotifyFeatures_sample数据集常被用于探索音频特征与歌曲流行度之间的关联性。研究人员通过分析如能量、响度、舞蹈性等数值特征,构建统计模型以揭示热门歌曲的声学共性。该数据集支持相关性分析、可视化探索及机器学习建模,为理解音乐偏好提供了量化基础。
解决学术问题
该数据集有效解决了音乐流行度预测中的特征归因问题,通过量化分析揭示了响度、能量与流行度呈正相关,而原声特质呈负相关的规律。这一发现深化了对音乐市场成功要素的认知,突破了传统主观评价的局限,为计算音乐学提供了可复现的实证研究框架。
衍生相关工作
基于该数据集衍生的经典研究包括多模态音乐分类模型、流行度预测神经网络架构,以及结合社交数据的混合推荐系统。这些工作进一步拓展了声学特征与用户行为、文化语境之间的交叉研究,推动了音乐信息检索与计算社会科学领域的融合创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作