Million Song Dataset|音乐分析数据集|音频数据数据集

github2021-09-30 更新2024-05-31 收录

音乐分析

音频数据

下载链接：

https://github.com/HolyZero/Million-Song-Datasets-EDA

下载链接

链接失效反馈

资源简介：

包含100万首歌曲的元数据和声音分析数据，用于音乐分析和研究。

This dataset comprises metadata and audio analysis data for one million songs, intended for music analysis and research.

创建时间：

2016-05-02

原始信息汇总

数据集概述

数据来源

Sound Analysis
- 来源：Million Song Dataset
- 格式：.h5
- 使用情况：
  - 对所有1,000,000首歌曲的元数据进行探索性数据分析（元数据大小：300 MB）
  - 从随机子集中提取10,000首歌曲的声音分析数据（声音分析数据大小：1.8 GB）
    - 时间结构分析：如节拍/小节长度分布
    - 响度、音色和音高分析
User Preference
- 来源：Echo Nest Taste Profile Data
- 格式：每首歌曲的用户播放次数
- 使用情况：利用播放次数数据生成“用户定义”的歌曲相似度度量，并尝试使用随机森林和LASSO选择对决定此度量最重要的声音特征（来自数据集1）
Lyrics Bag-of-Words
- 来源：musiXmatch dataset
- 格式：.db(BoW)
- 使用情况：实施基于10和15个主题的Latent Dirichlet Allocation主题模型，独立于其他集群生成，以观察声音特征生成的集群是否在“文学上”有所不同
Genre
- 来源：Tagtraum Genre Annotations
- 格式：.cls
- 使用情况：未详细说明

方法论

基于歌曲特征对歌曲进行集群
使用歌词Bag-of-Words数据进行主题建模，并比较这两种集群结果的差异/相似性
利用播放次数数据选择对“群体定义的相似性”决定性重要的歌曲特征，然后仅使用这些选定的声音特征对歌曲进行再次集群

结论

基于上述结果得出结论。

AI搜集汇总

数据集介绍

构建方式

Million Song Dataset的构建基于多源数据的整合与深度分析。首先，数据集从Million Song Dataset中提取了100万首歌曲的元数据，并从中随机选取了1万首歌曲进行声音特征分析，涵盖了节奏、响度、音色和音高等维度。其次，结合Echo Nest Taste Profile Subset的用户播放数据，通过随机森林和LASSO回归筛选出对用户偏好影响最大的声音特征。此外，还引入了musiXmatch数据集的歌词Bag-of-Words模型，通过潜在狄利克雷分配（LDA）进行主题建模，探索歌词与声音特征之间的关系。最后，利用Tagtraum Genre Annotations的流派标注数据，进一步丰富了数据集的分类维度。

特点

Million Song Dataset的特点在于其多维度的音乐特征覆盖与跨领域数据的深度融合。数据集不仅包含丰富的元数据，如歌曲的节奏、响度、音色和音高，还通过用户播放数据量化了用户偏好，提供了基于用户行为的相似性度量。歌词的Bag-of-Words模型为音乐主题分析提供了文本层面的支持，而流派标注数据则为音乐分类提供了权威的参考。这种多源数据的整合使得数据集在音乐信息检索、推荐系统和音乐分析等领域具有广泛的应用潜力。

使用方法

Million Song Dataset的使用方法灵活多样，适用于多种研究场景。研究者可以通过HDF5格式直接访问数据集中的元数据和声音特征，进行音乐特征的可视化与分析。用户播放数据可用于构建个性化推荐模型，而歌词的Bag-of-Words模型则支持基于主题的音乐聚类分析。此外，流派标注数据可用于音乐分类任务的模型训练与评估。数据集的多维度特性使其能够支持从基础的音乐特征分析到复杂的用户行为建模等多种研究需求。

背景与挑战

背景概述

Million Song Dataset（百万歌曲数据集）是由哥伦比亚大学的LabROSA实验室于2011年发布的一个大规模音乐数据集，旨在为音乐信息检索（MIR）领域提供丰富的研究资源。该数据集包含了超过一百万首歌曲的元数据、音频特征、用户播放记录以及歌词信息，涵盖了从音乐结构分析到用户行为研究的多个维度。核心研究问题聚焦于如何通过计算模型理解音乐的复杂特征及其与用户偏好之间的关系。该数据集的发布极大地推动了音乐推荐系统、音乐分类和情感分析等领域的研究进展，成为音乐计算领域的重要基准。

当前挑战

Million Song Dataset在解决音乐信息检索问题时面临多重挑战。首先，音乐数据的多模态特性使得如何有效整合音频特征、歌词信息和用户行为数据成为一个复杂问题。其次，音频特征的高维度和非线性关系增加了特征提取和模型训练的难度。在数据构建过程中，研究人员需处理大规模数据的存储与计算问题，尤其是音频数据的处理对计算资源提出了极高要求。此外，用户播放记录的稀疏性和噪声数据也对模型的鲁棒性提出了挑战。这些挑战共同构成了该数据集在音乐计算领域中的核心难题。

常用场景

经典使用场景

Million Song Dataset（百万歌曲数据集）在音乐信息检索和音乐推荐系统中扮演着核心角色。该数据集通过提供丰富的音频特征和元数据，使得研究人员能够深入分析音乐的结构、风格和情感表达。经典的使用场景包括音乐特征提取、音乐分类和聚类分析，这些分析帮助理解音乐的内在属性及其与听众偏好的关联。

实际应用

在实际应用中，Million Song Dataset被广泛用于构建和测试音乐推荐系统，如Spotify和Apple Music等流媒体服务。这些系统利用数据集中的音频特征和用户行为数据，为用户提供个性化的音乐推荐，极大地提升了用户体验和平台的用户粘性。

衍生相关工作

基于Million Song Dataset，许多经典的研究工作得以展开，包括音乐特征提取算法的改进、音乐情感分析模型的开发以及基于深度学习的音乐推荐系统的研究。这些工作不仅深化了对音乐数据的理解，也推动了音乐信息检索技术的进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准，尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率（VHR，0.5m/像素）Google Earth (GE) 图像块对组成，大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化，尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里，我们关注与建筑相关的变化，包括建筑增长（从土壤/草地/硬化地面或在建建筑到新建筑区域的变化）和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签（1 表示变化，0 表示不变）进行注释。我们数据集中的每个样本都由一个注释器进行注释，然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

猫狗分类

## 数据集描述 ### 数据集简介本数据集是简单的猫狗二分类数据集，共2个类别，其中训练集包含275张带注释的图像，验证集包含70张带注释的图像。整个数据集共10.3MB，可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式数据集包括训练集train和验证集val，train和val文件夹之下按文件夹进行分类，共有2个子文件夹，同类别标签的图片在同一个文件夹下，图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```

魔搭社区收录