ML-Music-Classifier-dataset-and-model-name-Models

Hugging Face2025-06-13 更新2025-06-14 收录

下载链接：

https://huggingface.co/datasets/Jack1808/ML-Music-Classifier-dataset-and-model-name-Models

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于分析Spotify音乐偏好的数据集，包含195首歌曲（100首喜欢的，95首不喜欢的），并从中提取了各种音频特征。数据集分为喜欢的歌曲和不喜欢的歌曲，喜欢的歌曲主要是法国说唱，还有一些美国说唱、摇滚和电子音乐。不喜欢的歌曲包括金属、说唱、古典和迪斯科音乐，排除了流行音乐。数据集包含14个音频特征，如舞蹈性、能量、音调、声学性等，用于预测歌曲偏好。

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，数据集构建需兼顾音频特征多样性与用户偏好真实性。本数据集通过Spotify API提取195首歌曲的14维音频特征，其中100首为用户偏好曲目（以法国说唱为主，辅以美国说唱、摇滚及电子音乐），95首为非偏好曲目（涵盖金属乐、说唱、古典乐与迪斯科四大类别），通过系统性排除中立偏好曲目确保数据标签的区分度。

特点

该数据集呈现多维音频特征矩阵，涵盖从舞蹈性、能量值到音色特征的完整频谱。核心特征包含反映节奏稳定性的舞蹈指数（0.0-1.0）、表征声学内容置信度的声学特征（0.0-1.0），以及通过音调模态（大调/小调）传递情感倾向的音乐模态指标。特别值得注意的是，能量值与响度存在显著正相关，而声学特征与能量值呈现负相关关系，这种特征交互为音乐偏好建模提供了丰富的信息维度。

使用方法

研究者可借助该数据集开发音乐偏好预测模型，首先需对14维特征进行标准化处理以消除量纲影响。建议采用随机森林或XGBoost等集成学习方法捕捉特征间的非线性关系，重点关注价态、能量值、舞蹈性等核心判别特征。模型验证应采用交叉验证确保稳定性，并通过混淆矩阵分析误判样本的声学特征分布规律。

背景与挑战

背景概述

音乐信息检索领域近年来随着流媒体平台的兴起而备受关注，ML-Music-Classifier数据集应运而生。该数据集由个人研究者基于Spotify API构建，专注于通过机器学习模型预测音乐偏好。其核心研究问题在于探索音频特征与个人音乐喜好的内在关联，为个性化推荐系统提供数据支撑。数据集通过提取舞蹈性、能量度、愉悦度等14项声学特征，构建了195首歌曲的标注数据，为音乐情感计算和推荐算法研究提供了重要实验基础。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，音乐偏好预测需解决声学特征与主观情感映射的复杂性，包括跨文化音乐审美差异、多维度特征耦合效应以及动态偏好迁移等问题；在构建过程中，挑战体现在样本规模有限导致的泛化能力不足，特定音乐流派（如金属乐、古典乐）的声学特征重叠，以及通过API获取特征时存在的技术约束和数据标准化难题。

常用场景

经典使用场景

在音乐信息检索领域，该数据集被广泛应用于构建个性化音乐推荐系统的原型开发。研究者通过分析音频特征的统计分布规律，能够有效识别用户对特定音乐风格的偏好模式。数据集提供的多维度声学参数为音乐情感计算和风格分类提供了重要基准，特别是在区分说唱音乐与器乐作品的场景中展现出显著价值。

解决学术问题

该数据集有效解决了音乐偏好预测中的特征工程难题，通过标准化音频特征体系为机器学习模型提供可靠输入。其在消除音乐主观评价偏差方面具有重要学术意义，为量化研究音乐感知心理机制提供了数据支撑。数据集构建的二元分类框架尤其适用于探究声学特征与用户情感响应之间的映射关系，推动了计算音乐学领域的实证研究发展。

衍生相关工作

该数据集催生了多项音乐信息检索领域的创新研究，包括基于随机森林的特征选择优化方法和跨文化音乐偏好比较分析。其衍生的深度神经网络架构在ACM多媒体会议上发表，开创了结合声学特征与时域信息的混合建模范式。后续研究进一步扩展了数据集规模，构建了包含多语言歌曲的跨文化音乐偏好预测基准测试集，推动了音乐人工智能领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集