Database for Emotional Analysis of Music (DEAM)

github2024-08-30 更新2024-09-01 收录

下载链接：

https://github.com/alleyibrahim/modus

下载链接

链接失效反馈

官方服务：

资源简介：

DEAM数据集包括一系列音频文件及其对应的情感属性注释，用于从音频文件中预测情感状态，特别是情感的愉悦度和唤醒度。

The DEAM dataset comprises a series of audio files and their corresponding emotional attribute annotations, which is intended for predicting emotional states from audio files, with a particular focus on valence and arousal.

创建时间：

2024-08-30

原始信息汇总

数据集概述

1. 简介

本项目旨在开发一个能够从音频文件中预测情绪状态（特别是情感和唤醒度）的机器学习模型。该过程涉及将音频数据转换为MIDI格式，提取相关特征，并构建预测模型。

2. 数据集和数据准备

本项目使用的数据集是音乐情感分析数据库（DEAM），该数据集包含一系列音频文件及其对应的情感属性注释。音频文件通过Basic Pitch库转换为MIDI文件。

2.1. 特征提取

从MIDI文件中提取了以下特征以捕捉与预测情感状态相关的音乐内容：

音高：提取每个音符的音高以分析旋律内容。
持续时间：测量每个音符的持续时间以理解节奏模式。
速度：记录每个音符的速度。
速度：记录每个音符的速度。
音调类别直方图：捕捉音调类别的分布。
音符密度：指示每单位时间播放的音符数量，反映作品的复杂性。
旋律间隔：连续音高之间的差异，有助于分析旋律结构。

3. 数据问题及解决方案

数据集包含缺失值，特别是在时间序列特征中，由于原始音频文件的长度不同，一些MIDI文件不包含连续的音符序列。为了处理这个问题，模型中引入了自定义掩码层以有效管理这些缺失值。

4. 模型架构及问题解决

最初选择了CNN，但经过进一步研究，决定转向RNN，因为RNN更适合处理MIDI特征等时间序列或序列数据。

4.1. 第一模型

第一个RNN模型包含两个SimpleRNN层，每个层有64个单元，并实现了一个掩码层以处理不同的序列长度。最终的密集层用于预测情感和唤醒度的平均值和标准差。

4.1.1. 层

RNN层：两个SimpleRNN层，每个层有64个单元。
掩码层：用于处理不同的序列长度。
密集输出层：用于预测情感和唤醒度的平均值和标准差。

4.1.2. 问题

零损失：通过调整输入形状、特征表示和数据/模型兼容性问题，重新校准了模型的损失函数。
输入形状问题：通过简化模型解决了输入形状问题。

4.2. 第二模型

第二个模型是一个更简化的模型，使用密集神经网络处理固定大小的输入特征。

4.2.1. 层

密集层：两个密集层，分别有32和16个神经元，使用ReLU激活函数。
自定义激活输出层：确保非负预测。

4.2.2. 问题

负预测：通过开发自定义激活函数解决了负预测问题。

4.3. 知识转移

通过理解初始复杂模型的局限性，并将其应用于设计更简单的模型。

5. 模型输出

每个输出对应于特定的属性：

情感平均值：指示音乐的平均积极或消极程度。
情感标准差：测量情感色调的变化。
唤醒度平均值：反映平均能量水平。
唤醒度标准差：显示能量水平的变化。

6. 结果

模型1（基于RNN）：在验证集上实现了0.4437的损失，有效处理了中等范围的情感和唤醒度值。
模型2（密集神经网络）：实现了约1.057的验证MSE，适用于基于静态特征的快速和高效预测。

搜集汇总

数据集介绍

构建方式

在构建Database for Emotional Analysis of Music (DEAM)数据集时，研究者首先将音频文件转换为MIDI格式，随后从MIDI文件中提取关键特征，如音高、音符持续时间、音符速度、整体节奏、音高类直方图、音符密度以及旋律间隔等。这些特征旨在捕捉音乐内容中与情感状态预测相关的多个维度。为处理数据中的缺失值，研究者引入了自定义掩码层，并在后续优化中采用填充零值和通用掩码层的方法，以确保数据集的完整性和模型的有效性。

使用方法

使用DEAM数据集时，研究者可以利用其丰富的音乐特征和情感标注进行多种机器学习任务。首先，数据集的MIDI特征可以作为输入，用于训练情感预测模型，如循环神经网络（RNN）或密集神经网络（Dense NN）。其次，数据集的情感标注可以用于验证模型的预测准确性，并进行模型性能的评估。此外，DEAM数据集还可以用于探索音乐特征与情感状态之间的复杂关系，为音乐情感分析提供新的视角和方法。

背景与挑战

背景概述

音乐情感分析数据库（DEAM）是由研究人员开发的数据集，旨在通过机器学习模型预测音频文件中的情感状态，特别是情感的愉悦度和唤醒度。该数据集包含了音频文件及其对应的情感属性注释，通过将音频数据转换为MIDI格式并提取相关特征，研究人员构建了一个预测模型。DEAM数据集的创建旨在解决音乐情感分析领域的核心问题，即如何从音乐中准确提取和预测情感状态，这对于音乐推荐系统、情感识别和人机交互等领域具有重要影响。

当前挑战

DEAM数据集在构建过程中面临多个挑战。首先，音频文件转换为MIDI格式后，存在时间序列特征中的缺失值问题，这需要通过自定义掩码层来有效处理。其次，模型在保存和导入过程中遇到的问题，通过填充缺失值并使用通用掩码层得以解决。此外，模型架构的选择也是一个关键挑战，初始的卷积神经网络（CNN）被证明不适合处理时间序列数据，因此转向循环神经网络（RNN）。最后，模型在预测情感状态时遇到的零损失和输入形状问题，通过调整模型配置和重新校准损失函数得以解决。这些挑战反映了在音乐情感分析领域中，如何有效处理和利用音频数据以实现准确的情感预测。

常用场景

经典使用场景

在音乐情感分析领域，DEAM数据集的经典使用场景主要集中在通过机器学习模型预测音乐的情感状态，特别是情感的愉悦度（valence）和唤醒度（arousal）。该数据集通过将音频文件转换为MIDI格式，并从中提取如音高、音符持续时间、音符速度、节奏、音高类别直方图、音符密度和旋律间隔等特征，构建预测模型。这些特征的提取和分析有助于模型捕捉音乐内容与情感状态之间的复杂关系，从而实现对音乐情感的精准预测。

解决学术问题

DEAM数据集在学术研究中解决了音乐情感分析的关键问题，即如何从音乐特征中准确预测情感状态。通过提供丰富的音频文件及其对应的情感标注，该数据集为研究人员提供了一个标准化的测试平台，促进了情感计算和音乐信息检索领域的发展。其意义在于推动了情感分析技术的进步，为理解和量化音乐情感提供了科学依据，对音乐治疗、用户情感识别和个性化音乐推荐等领域具有深远影响。

实际应用

在实际应用中，DEAM数据集的应用场景广泛，包括但不限于音乐推荐系统、情感识别软件和音乐治疗工具。例如，在音乐推荐系统中，通过分析用户的情感状态，系统可以推荐符合用户当前情感需求的音乐，提升用户体验。在音乐治疗中，该数据集可以帮助治疗师选择适合患者情感状态的音乐，以达到更好的治疗效果。此外，情感识别软件可以利用该数据集训练模型，实时分析用户的情感变化，为心理健康监测提供支持。

数据集最近研究