my_first_asignment_ds

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/Noam12345/my_first_asignment_ds

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“30,000 Spotify Songs”，旨在探索音频特征如何影响歌曲的流行度。数据集来源于Kaggle，原始大小为32,833行×23个特征，经过清理和特征工程后，最终大小为32,790行×27个特征。目标变量为“track_popularity”（0-100），定义“热门歌曲”为流行度大于75的歌曲（约占总曲目的8.1%）。数据集包含10个音频特征，如“danceability”（舞蹈性）、“energy”（能量）、“loudness”（响度）等，每个特征都有详细的定义和示例。此外，数据集还新增了三个特征：“release_year”（发行年份）、“is_hit”（是否为热门歌曲）和“loudness_scaled”（缩放后的响度）。该数据集适用于音乐流行度预测、音频特征分析和音乐推荐等任务。

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，数据集的构建往往依赖于对大规模流媒体平台音频特征的提取与分析。本数据集源自Kaggle平台上的“30000 Spotify Songs”原始数据，经过系统的数据清洗与特征工程处理。构建过程中，首先剔除了存在缺失值的记录，并移除了不符合物理逻辑的异常数据，例如零拍速或超出行业标准响度上限的曲目。随后，通过从发行日期中提取发布年份、基于流行度阈值定义热门歌曲、以及对响度与时长进行重新标度，生成了三个新的衍生特征。最终，通过删除冗余的原始日期列与未使用的子流派列，形成了一个包含32,790条记录与25个特征的洁净表格数据集，为后续的探索性数据分析奠定了坚实基础。

特点

该数据集的核心特点在于其聚焦于Spotify平台歌曲的音频特征与流行度之间的关联，为音乐流行度预测研究提供了宝贵的实证材料。数据集涵盖了十项关键的音频特征，包括可舞性、能量、响度、语音度、声学度、器乐度、现场感、情感效价、拍速和时长，每项特征均经过标准化或物理量纲的清晰定义。一个显著特点是引入了基于流行度阈值的二分类标签“is_hit”，将流行度大于75的歌曲定义为热门歌曲，这为监督学习任务提供了明确的目标变量。此外，数据集在时间跨度上覆盖了1957年至2020年，并包含流行、拉丁、R&B等多种音乐流派，使得跨时代与跨风格的对比分析成为可能，揭示了音乐流行趋势的历时性变化与流派特异性模式。

使用方法

该数据集主要适用于表格分类任务，特别是音乐流行度的二分类预测（热门与非热门歌曲）。研究人员或从业者可以将其加载至Pandas等数据分析框架中，利用提供的25个特征构建机器学习模型。在使用前，建议参考README中详尽的探索性数据分析结果，例如各音频特征与流行度的相关性、不同流派的特征分布“甜蜜点”，这些洞察能为特征选择与模型解释提供重要指导。数据集可直接用于训练逻辑回归、随机森林或梯度提升树等分类器，以预测一首歌曲成为热门的可能性。同时，其清晰的字段定义和洁净的数据质量也使其非常适合用于音乐信息检索、推荐系统算法开发以及计算音乐学领域的教学与科研案例。

背景与挑战

背景概述

在音乐信息检索与计算音乐学领域，预测歌曲的流行度是一个长期存在的核心研究问题。my_first_asignment_ds数据集源于2026年的一项学术作业，由研究者Noam Fuchs构建，旨在系统探究Spotify平台歌曲的音频特征与其流行度之间的量化关系。该数据集以Kaggle上的‘30,000 Spotify Songs’为原始素材，经过严谨的数据清洗与特征工程，最终包含32,790条音轨记录及25个特征变量，其中目标变量为‘track_popularity’。其核心研究问题聚焦于识别驱动歌曲成为热门单曲的关键音频属性，为音乐制作与流媒体平台推荐算法提供了数据驱动的洞察。

当前挑战

该数据集致力于解决音乐流行度预测这一复杂问题，其首要挑战在于流行度本身的多维性与主观性，它受文化趋势、营销策略和平台算法等多重因素影响，并非仅由音频特征决定。其次，数据构建过程面临诸多挑战：原始数据中存在缺失值与异常值（如零BPM或超限响度），需进行精细清洗；定义‘热门歌曲’的阈值需在统计显著性与业务合理性之间权衡；此外，数据集的时间跨度较长，而Spotify的流行度评分具有时效性加权，可能导致历史歌曲与当代歌曲的可比性偏差，这为跨年代分析带来了混杂因素。

常用场景

经典使用场景

在音乐信息检索与计算音乐学领域，该数据集为探索音频特征与歌曲流行度之间的关联提供了经典范例。研究人员通过分析超过三万首Spotify歌曲的十项音频特征，如可舞性、能量、响度、声学性等，系统性地识别出热门歌曲在特征分布上的共性。这一过程通常涉及探索性数据分析、特征工程与可视化技术，旨在揭示音乐制作中可量化的成功要素，为后续的预测模型构建奠定基础。

衍生相关工作

围绕该数据集衍生了一系列经典研究工作，主要包括基于其特征的机器学习模型构建，如使用逻辑回归、随机森林或梯度提升树进行热门歌曲分类预测。此外，研究还扩展到时序分析，探索音乐风格与流行趋势的演变，以及跨文化比较，分析不同地区或流派对音频特征的偏好差异。这些工作深化了对音乐成功要素的理解，并推动了音乐人工智能领域的技术创新。

数据集最近研究