five

Database for Emotional Analysis of Music (DEAM)|音乐情感分析数据集|音频处理数据集

收藏
github2024-08-30 更新2024-09-01 收录
音乐情感分析
音频处理
下载链接:
https://github.com/alleyibrahim/modus
下载链接
链接失效反馈
资源简介:
DEAM数据集包括一系列音频文件及其对应的情感属性注释,用于从音频文件中预测情感状态,特别是情感的愉悦度和唤醒度。
创建时间:
2024-08-30
原始信息汇总

数据集概述

1. 简介

本项目旨在开发一个能够从音频文件中预测情绪状态(特别是情感和唤醒度)的机器学习模型。该过程涉及将音频数据转换为MIDI格式,提取相关特征,并构建预测模型。

2. 数据集和数据准备

本项目使用的数据集是音乐情感分析数据库(DEAM),该数据集包含一系列音频文件及其对应的情感属性注释。音频文件通过Basic Pitch库转换为MIDI文件。

2.1. 特征提取

从MIDI文件中提取了以下特征以捕捉与预测情感状态相关的音乐内容:

  • 音高:提取每个音符的音高以分析旋律内容。
  • 持续时间:测量每个音符的持续时间以理解节奏模式。
  • 速度:记录每个音符的速度。
  • 速度:记录每个音符的速度。
  • 音调类别直方图:捕捉音调类别的分布。
  • 音符密度:指示每单位时间播放的音符数量,反映作品的复杂性。
  • 旋律间隔:连续音高之间的差异,有助于分析旋律结构。

3. 数据问题及解决方案

数据集包含缺失值,特别是在时间序列特征中,由于原始音频文件的长度不同,一些MIDI文件不包含连续的音符序列。为了处理这个问题,模型中引入了自定义掩码层以有效管理这些缺失值。

4. 模型架构及问题解决

最初选择了CNN,但经过进一步研究,决定转向RNN,因为RNN更适合处理MIDI特征等时间序列或序列数据。

4.1. 第一模型

第一个RNN模型包含两个SimpleRNN层,每个层有64个单元,并实现了一个掩码层以处理不同的序列长度。最终的密集层用于预测情感和唤醒度的平均值和标准差。

4.1.1. 层

  • RNN层:两个SimpleRNN层,每个层有64个单元。
  • 掩码层:用于处理不同的序列长度。
  • 密集输出层:用于预测情感和唤醒度的平均值和标准差。

4.1.2. 问题

  • 零损失:通过调整输入形状、特征表示和数据/模型兼容性问题,重新校准了模型的损失函数。
  • 输入形状问题:通过简化模型解决了输入形状问题。

4.2. 第二模型

第二个模型是一个更简化的模型,使用密集神经网络处理固定大小的输入特征。

4.2.1. 层

  • 密集层:两个密集层,分别有32和16个神经元,使用ReLU激活函数。
  • 自定义激活输出层:确保非负预测。

4.2.2. 问题

  • 负预测:通过开发自定义激活函数解决了负预测问题。

4.3. 知识转移

通过理解初始复杂模型的局限性,并将其应用于设计更简单的模型。

5. 模型输出

每个输出对应于特定的属性:

  • 情感平均值:指示音乐的平均积极或消极程度。
  • 情感标准差:测量情感色调的变化。
  • 唤醒度平均值:反映平均能量水平。
  • 唤醒度标准差:显示能量水平的变化。

6. 结果

  • 模型1(基于RNN):在验证集上实现了0.4437的损失,有效处理了中等范围的情感和唤醒度值。
  • 模型2(密集神经网络):实现了约1.057的验证MSE,适用于基于静态特征的快速和高效预测。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Database for Emotional Analysis of Music (DEAM)数据集时,研究者首先将音频文件转换为MIDI格式,随后从MIDI文件中提取关键特征,如音高、音符持续时间、音符速度、整体节奏、音高类直方图、音符密度以及旋律间隔等。这些特征旨在捕捉音乐内容中与情感状态预测相关的多个维度。为处理数据中的缺失值,研究者引入了自定义掩码层,并在后续优化中采用填充零值和通用掩码层的方法,以确保数据集的完整性和模型的有效性。
使用方法
使用DEAM数据集时,研究者可以利用其丰富的音乐特征和情感标注进行多种机器学习任务。首先,数据集的MIDI特征可以作为输入,用于训练情感预测模型,如循环神经网络(RNN)或密集神经网络(Dense NN)。其次,数据集的情感标注可以用于验证模型的预测准确性,并进行模型性能的评估。此外,DEAM数据集还可以用于探索音乐特征与情感状态之间的复杂关系,为音乐情感分析提供新的视角和方法。
背景与挑战
背景概述
音乐情感分析数据库(DEAM)是由研究人员开发的数据集,旨在通过机器学习模型预测音频文件中的情感状态,特别是情感的愉悦度和唤醒度。该数据集包含了音频文件及其对应的情感属性注释,通过将音频数据转换为MIDI格式并提取相关特征,研究人员构建了一个预测模型。DEAM数据集的创建旨在解决音乐情感分析领域的核心问题,即如何从音乐中准确提取和预测情感状态,这对于音乐推荐系统、情感识别和人机交互等领域具有重要影响。
当前挑战
DEAM数据集在构建过程中面临多个挑战。首先,音频文件转换为MIDI格式后,存在时间序列特征中的缺失值问题,这需要通过自定义掩码层来有效处理。其次,模型在保存和导入过程中遇到的问题,通过填充缺失值并使用通用掩码层得以解决。此外,模型架构的选择也是一个关键挑战,初始的卷积神经网络(CNN)被证明不适合处理时间序列数据,因此转向循环神经网络(RNN)。最后,模型在预测情感状态时遇到的零损失和输入形状问题,通过调整模型配置和重新校准损失函数得以解决。这些挑战反映了在音乐情感分析领域中,如何有效处理和利用音频数据以实现准确的情感预测。
常用场景
经典使用场景
在音乐情感分析领域,DEAM数据集的经典使用场景主要集中在通过机器学习模型预测音乐的情感状态,特别是情感的愉悦度(valence)和唤醒度(arousal)。该数据集通过将音频文件转换为MIDI格式,并从中提取如音高、音符持续时间、音符速度、节奏、音高类别直方图、音符密度和旋律间隔等特征,构建预测模型。这些特征的提取和分析有助于模型捕捉音乐内容与情感状态之间的复杂关系,从而实现对音乐情感的精准预测。
解决学术问题
DEAM数据集在学术研究中解决了音乐情感分析的关键问题,即如何从音乐特征中准确预测情感状态。通过提供丰富的音频文件及其对应的情感标注,该数据集为研究人员提供了一个标准化的测试平台,促进了情感计算和音乐信息检索领域的发展。其意义在于推动了情感分析技术的进步,为理解和量化音乐情感提供了科学依据,对音乐治疗、用户情感识别和个性化音乐推荐等领域具有深远影响。
实际应用
在实际应用中,DEAM数据集的应用场景广泛,包括但不限于音乐推荐系统、情感识别软件和音乐治疗工具。例如,在音乐推荐系统中,通过分析用户的情感状态,系统可以推荐符合用户当前情感需求的音乐,提升用户体验。在音乐治疗中,该数据集可以帮助治疗师选择适合患者情感状态的音乐,以达到更好的治疗效果。此外,情感识别软件可以利用该数据集训练模型,实时分析用户的情感变化,为心理健康监测提供支持。
数据集最近研究
最新研究方向
在音乐情感分析领域,Database for Emotional Analysis of Music (DEAM) 数据集的最新研究方向主要集中在利用机器学习模型预测音乐的情感状态,特别是情感的愉悦度(valence)和唤醒度(arousal)。研究者通过将音频数据转换为MIDI格式,并从中提取如音高、持续时间、速度、节奏、音高类直方图、音符密度和旋律间隔等特征,构建了预测模型。这些模型不仅包括卷积神经网络(CNN)和循环神经网络(RNN),还引入了密集神经网络(Dense NN),以适应不同类型的音乐特征和情感预测需求。此外,研究还涉及处理数据缺失和模型输入形状问题,通过自定义掩码层和激活函数,优化模型的性能和预测准确性。这些研究不仅提升了音乐情感分析的精度,也为情感计算和音乐治疗等领域提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录