five

Database for Emotional Analysis of Music (DEAM)|音乐情感分析数据集|音频处理数据集

收藏
github2024-08-30 更新2024-09-01 收录
音乐情感分析
音频处理
下载链接:
https://github.com/alleyibrahim/modus
下载链接
链接失效反馈
资源简介:
DEAM数据集包括一系列音频文件及其对应的情感属性注释,用于从音频文件中预测情感状态,特别是情感的愉悦度和唤醒度。
创建时间:
2024-08-30
原始信息汇总

数据集概述

1. 简介

本项目旨在开发一个能够从音频文件中预测情绪状态(特别是情感和唤醒度)的机器学习模型。该过程涉及将音频数据转换为MIDI格式,提取相关特征,并构建预测模型。

2. 数据集和数据准备

本项目使用的数据集是音乐情感分析数据库(DEAM),该数据集包含一系列音频文件及其对应的情感属性注释。音频文件通过Basic Pitch库转换为MIDI文件。

2.1. 特征提取

从MIDI文件中提取了以下特征以捕捉与预测情感状态相关的音乐内容:

  • 音高:提取每个音符的音高以分析旋律内容。
  • 持续时间:测量每个音符的持续时间以理解节奏模式。
  • 速度:记录每个音符的速度。
  • 速度:记录每个音符的速度。
  • 音调类别直方图:捕捉音调类别的分布。
  • 音符密度:指示每单位时间播放的音符数量,反映作品的复杂性。
  • 旋律间隔:连续音高之间的差异,有助于分析旋律结构。

3. 数据问题及解决方案

数据集包含缺失值,特别是在时间序列特征中,由于原始音频文件的长度不同,一些MIDI文件不包含连续的音符序列。为了处理这个问题,模型中引入了自定义掩码层以有效管理这些缺失值。

4. 模型架构及问题解决

最初选择了CNN,但经过进一步研究,决定转向RNN,因为RNN更适合处理MIDI特征等时间序列或序列数据。

4.1. 第一模型

第一个RNN模型包含两个SimpleRNN层,每个层有64个单元,并实现了一个掩码层以处理不同的序列长度。最终的密集层用于预测情感和唤醒度的平均值和标准差。

4.1.1. 层

  • RNN层:两个SimpleRNN层,每个层有64个单元。
  • 掩码层:用于处理不同的序列长度。
  • 密集输出层:用于预测情感和唤醒度的平均值和标准差。

4.1.2. 问题

  • 零损失:通过调整输入形状、特征表示和数据/模型兼容性问题,重新校准了模型的损失函数。
  • 输入形状问题:通过简化模型解决了输入形状问题。

4.2. 第二模型

第二个模型是一个更简化的模型,使用密集神经网络处理固定大小的输入特征。

4.2.1. 层

  • 密集层:两个密集层,分别有32和16个神经元,使用ReLU激活函数。
  • 自定义激活输出层:确保非负预测。

4.2.2. 问题

  • 负预测:通过开发自定义激活函数解决了负预测问题。

4.3. 知识转移

通过理解初始复杂模型的局限性,并将其应用于设计更简单的模型。

5. 模型输出

每个输出对应于特定的属性:

  • 情感平均值:指示音乐的平均积极或消极程度。
  • 情感标准差:测量情感色调的变化。
  • 唤醒度平均值:反映平均能量水平。
  • 唤醒度标准差:显示能量水平的变化。

6. 结果

  • 模型1(基于RNN):在验证集上实现了0.4437的损失,有效处理了中等范围的情感和唤醒度值。
  • 模型2(密集神经网络):实现了约1.057的验证MSE,适用于基于静态特征的快速和高效预测。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Database for Emotional Analysis of Music (DEAM)数据集时,研究者首先将音频文件转换为MIDI格式,随后从MIDI文件中提取关键特征,如音高、音符持续时间、音符速度、整体节奏、音高类直方图、音符密度以及旋律间隔等。这些特征旨在捕捉音乐内容中与情感状态预测相关的多个维度。为处理数据中的缺失值,研究者引入了自定义掩码层,并在后续优化中采用填充零值和通用掩码层的方法,以确保数据集的完整性和模型的有效性。
使用方法
使用DEAM数据集时,研究者可以利用其丰富的音乐特征和情感标注进行多种机器学习任务。首先,数据集的MIDI特征可以作为输入,用于训练情感预测模型,如循环神经网络(RNN)或密集神经网络(Dense NN)。其次,数据集的情感标注可以用于验证模型的预测准确性,并进行模型性能的评估。此外,DEAM数据集还可以用于探索音乐特征与情感状态之间的复杂关系,为音乐情感分析提供新的视角和方法。
背景与挑战
背景概述
音乐情感分析数据库(DEAM)是由研究人员开发的数据集,旨在通过机器学习模型预测音频文件中的情感状态,特别是情感的愉悦度和唤醒度。该数据集包含了音频文件及其对应的情感属性注释,通过将音频数据转换为MIDI格式并提取相关特征,研究人员构建了一个预测模型。DEAM数据集的创建旨在解决音乐情感分析领域的核心问题,即如何从音乐中准确提取和预测情感状态,这对于音乐推荐系统、情感识别和人机交互等领域具有重要影响。
当前挑战
DEAM数据集在构建过程中面临多个挑战。首先,音频文件转换为MIDI格式后,存在时间序列特征中的缺失值问题,这需要通过自定义掩码层来有效处理。其次,模型在保存和导入过程中遇到的问题,通过填充缺失值并使用通用掩码层得以解决。此外,模型架构的选择也是一个关键挑战,初始的卷积神经网络(CNN)被证明不适合处理时间序列数据,因此转向循环神经网络(RNN)。最后,模型在预测情感状态时遇到的零损失和输入形状问题,通过调整模型配置和重新校准损失函数得以解决。这些挑战反映了在音乐情感分析领域中,如何有效处理和利用音频数据以实现准确的情感预测。
常用场景
经典使用场景
在音乐情感分析领域,DEAM数据集的经典使用场景主要集中在通过机器学习模型预测音乐的情感状态,特别是情感的愉悦度(valence)和唤醒度(arousal)。该数据集通过将音频文件转换为MIDI格式,并从中提取如音高、音符持续时间、音符速度、节奏、音高类别直方图、音符密度和旋律间隔等特征,构建预测模型。这些特征的提取和分析有助于模型捕捉音乐内容与情感状态之间的复杂关系,从而实现对音乐情感的精准预测。
解决学术问题
DEAM数据集在学术研究中解决了音乐情感分析的关键问题,即如何从音乐特征中准确预测情感状态。通过提供丰富的音频文件及其对应的情感标注,该数据集为研究人员提供了一个标准化的测试平台,促进了情感计算和音乐信息检索领域的发展。其意义在于推动了情感分析技术的进步,为理解和量化音乐情感提供了科学依据,对音乐治疗、用户情感识别和个性化音乐推荐等领域具有深远影响。
实际应用
在实际应用中,DEAM数据集的应用场景广泛,包括但不限于音乐推荐系统、情感识别软件和音乐治疗工具。例如,在音乐推荐系统中,通过分析用户的情感状态,系统可以推荐符合用户当前情感需求的音乐,提升用户体验。在音乐治疗中,该数据集可以帮助治疗师选择适合患者情感状态的音乐,以达到更好的治疗效果。此外,情感识别软件可以利用该数据集训练模型,实时分析用户的情感变化,为心理健康监测提供支持。
数据集最近研究
最新研究方向
在音乐情感分析领域,Database for Emotional Analysis of Music (DEAM) 数据集的最新研究方向主要集中在利用机器学习模型预测音乐的情感状态,特别是情感的愉悦度(valence)和唤醒度(arousal)。研究者通过将音频数据转换为MIDI格式,并从中提取如音高、持续时间、速度、节奏、音高类直方图、音符密度和旋律间隔等特征,构建了预测模型。这些模型不仅包括卷积神经网络(CNN)和循环神经网络(RNN),还引入了密集神经网络(Dense NN),以适应不同类型的音乐特征和情感预测需求。此外,研究还涉及处理数据缺失和模型输入形状问题,通过自定义掩码层和激活函数,优化模型的性能和预测准确性。这些研究不仅提升了音乐情感分析的精度,也为情感计算和音乐治疗等领域提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

Rail-DB

Rail-DB是由深圳技术大学创建的铁路检测数据集,包含7432对图像及其标注,涵盖多种光照、道路结构和视角条件。数据集中的轨道通过多边形进行标注,并根据背景被分为九种场景。Rail-DB旨在推动铁路检测算法的进步和比较,通过提供多样化的真实世界铁路图像,增强算法的鲁棒性。此外,数据集的创建过程包括从真实世界火车视频中获取图像,通过粗略和精细两个阶段进行标注,确保标注的准确性和完整性。Rail-DB的应用领域主要集中在铁路异常检测,特别是铁路区域的识别,以提高铁路安全和维护效率。

arXiv 收录

553个真实世界的半结构化访谈数据集

该数据集包含553个真实世界的半结构化访谈,每个访谈都与临床诊断结果配对,用于评估抑郁症、焦虑症和创伤后应激障碍等精神健康问题的早期诊断。数据集来自美国多个行为研究项目,参与者回答了五个关于日常生活、挑战性事件、应对策略、不愉快事件和积极经历的标准化问题。访谈被记录并转录,每个访谈的平均长度约为2,955个单词。该数据集旨在为自然语言处理模型提供真实且具有生态效度的基准,以评估其从自然语言中推断精神健康问题的能力。

arXiv 收录