Database for Emotional Analysis of Music (DEAM)|音乐情感分析数据集|音频处理数据集
收藏数据集概述
1. 简介
本项目旨在开发一个能够从音频文件中预测情绪状态(特别是情感和唤醒度)的机器学习模型。该过程涉及将音频数据转换为MIDI格式,提取相关特征,并构建预测模型。
2. 数据集和数据准备
本项目使用的数据集是音乐情感分析数据库(DEAM),该数据集包含一系列音频文件及其对应的情感属性注释。音频文件通过Basic Pitch库转换为MIDI文件。
2.1. 特征提取
从MIDI文件中提取了以下特征以捕捉与预测情感状态相关的音乐内容:
- 音高:提取每个音符的音高以分析旋律内容。
- 持续时间:测量每个音符的持续时间以理解节奏模式。
- 速度:记录每个音符的速度。
- 速度:记录每个音符的速度。
- 音调类别直方图:捕捉音调类别的分布。
- 音符密度:指示每单位时间播放的音符数量,反映作品的复杂性。
- 旋律间隔:连续音高之间的差异,有助于分析旋律结构。
3. 数据问题及解决方案
数据集包含缺失值,特别是在时间序列特征中,由于原始音频文件的长度不同,一些MIDI文件不包含连续的音符序列。为了处理这个问题,模型中引入了自定义掩码层以有效管理这些缺失值。
4. 模型架构及问题解决
最初选择了CNN,但经过进一步研究,决定转向RNN,因为RNN更适合处理MIDI特征等时间序列或序列数据。
4.1. 第一模型
第一个RNN模型包含两个SimpleRNN层,每个层有64个单元,并实现了一个掩码层以处理不同的序列长度。最终的密集层用于预测情感和唤醒度的平均值和标准差。
4.1.1. 层
- RNN层:两个SimpleRNN层,每个层有64个单元。
- 掩码层:用于处理不同的序列长度。
- 密集输出层:用于预测情感和唤醒度的平均值和标准差。
4.1.2. 问题
- 零损失:通过调整输入形状、特征表示和数据/模型兼容性问题,重新校准了模型的损失函数。
- 输入形状问题:通过简化模型解决了输入形状问题。
4.2. 第二模型
第二个模型是一个更简化的模型,使用密集神经网络处理固定大小的输入特征。
4.2.1. 层
- 密集层:两个密集层,分别有32和16个神经元,使用ReLU激活函数。
- 自定义激活输出层:确保非负预测。
4.2.2. 问题
- 负预测:通过开发自定义激活函数解决了负预测问题。
4.3. 知识转移
通过理解初始复杂模型的局限性,并将其应用于设计更简单的模型。
5. 模型输出
每个输出对应于特定的属性:
- 情感平均值:指示音乐的平均积极或消极程度。
- 情感标准差:测量情感色调的变化。
- 唤醒度平均值:反映平均能量水平。
- 唤醒度标准差:显示能量水平的变化。
6. 结果
- 模型1(基于RNN):在验证集上实现了0.4437的损失,有效处理了中等范围的情感和唤醒度值。
- 模型2(密集神经网络):实现了约1.057的验证MSE,适用于基于静态特征的快速和高效预测。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录