My_Dataset

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/hardik-0212/My_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Spotify歌曲偏好数据集包含195首歌曲的音频特征，这些歌曲被用户标记为喜欢或不喜欢。数据集用于构建和训练机器学习模型，以预测用户基于定量音频特征的音乐偏好。数据集以CSV格式存储，来源于Spotify API，包括一个目标列（喜欢或不喜欢），所有特征均为数值型，数据集平衡，适用于学术和个人研究。

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，Spotify歌曲偏好数据集通过Spotify API系统性地采集了195首歌曲的音频特征。构建过程基于用户明确标注的偏好标签，将100首喜爱歌曲与95首不喜爱歌曲形成二元分类样本，其中不喜爱类别进一步细分为金属、古典、迪斯科和说唱四个子类，确保了数据来源的结构化与可追溯性。

使用方法

研究者可直接加载CSV格式数据，利用标准化流程进行特征工程与模型训练。建议优先采用逻辑回归、随机森林等经典算法建立基线模型，通过可视化分析（如能量-效价散点图、特征相关性热力图）探索数据内在规律，并依据统计显著性检验结果优化特征选择策略。

背景与挑战

背景概述

音乐推荐系统作为信息过滤领域的重要分支，其核心在于通过计算模型预测用户对未接触音乐内容的偏好程度。Spotify Song Preference Dataset由匿名研究者于近期创建，依托Spotify API提取195首歌曲的14维音频特征，构建了基于用户显式反馈的二元分类数据集。该数据集通过量化舞蹈性、能量度、音效纯度等声学指标，为音乐信息检索与个性化推荐算法提供了重要的实验基准，推动了基于客观音频特征的用户偏好建模研究。

当前挑战

该数据集致力于解决音乐推荐领域的高维特征与用户主观偏好间的非线性映射难题，具体体现为音频特征与情感感知间的语义鸿沟问题。构建过程中面临三重挑战：其一需平衡不同音乐流派在正负样本中的代表性，避免模型产生风格偏见；其二需处理音频特征间的高度相关性（如能量与响度的强正相关）导致的多元共线性问题；其三在于用户偏好标注的时空敏感性，同一用户对相同歌曲的评判可能随语境动态变化，影响模型泛化能力。

常用场景

经典使用场景

在音乐信息检索领域，该数据集为研究人员提供了基于音频特征的个性化音乐推荐模型训练平台。通过分析195首歌曲的13项声学特征与用户偏好标签的关联性，研究者可构建分类模型预测用户对未收听歌曲的喜好倾向，典型应用包括逻辑回归、随机森林等机器学习算法的性能对比与优化。

解决学术问题

该数据集有效解决了音乐推荐系统中冷启动问题和特征可解释性挑战。通过量化分析舞蹈性、能量度等声学特征与偏好的统计学关联，为理解人类音乐审美认知机制提供了数据支撑，显著推进了个性化推荐算法在稀疏数据场景下的泛化能力研究。

实际应用

实际应用中，该数据集支撑的音乐偏好预测模型可集成至流媒体平台，实现动态个性化歌单生成。基于能量度与价态等关键特征的实时分析，系统能为用户精准推荐符合当前情绪状态的音乐，提升平台用户留存率与互动时长，目前已应用于智能车载音乐系统与健身背景音乐推荐场景。

数据集最近研究