five

CREMA, RAVDESS, SAVEE, TESS|情感识别数据集|语音数据数据集

收藏
github2024-06-22 更新2024-06-23 收录
情感识别
语音数据
下载链接:
https://github.com/Shengwei0516/Speech-Emotion-Recognition
下载链接
链接失效反馈
资源简介:
包含音频文件,分别标记有不同的情感类别,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。
创建时间:
2024-06-22
原始信息汇总

语音情感识别数据集

数据集

该项目使用的数据集包括:

  • CREMA: 包含标记有悲伤、愤怒、厌恶、恐惧、快乐和中性情感的音频文件。
  • RAVDESS: 包含标记有中性、快乐、悲伤、愤怒、恐惧、厌恶和惊讶情感的音频文件。
  • SAVEE: 包含标记有各种情感的音频文件。
  • TESS: 包含标记有各种情感的音频文件。

功能

  • 从CREMA、RAVDESS、SAVEE和TESS数据集中加载和预处理数据。
  • 使用librosa进行特征提取。
  • 使用TensorFlowKeras进行模型训练。
  • 使用混淆矩阵和分类报告进行评估。

模型架构

模型使用TensorFlowKeras构建,包括:

  • 用于特征提取的卷积层。
  • 用于分类的密集层。
  • 用于正则化的Dropout层。

训练

模型训练包括:

  • 使用早停法避免过拟合。
  • 在平台期减少学习率以动态调整学习率。
  • 保存训练过程中的最佳模型。

评估

评估使用:

  • 混淆矩阵以可视化性能。
  • 分类报告以提供精确度、召回率和F1分数。
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建情感识别数据集时,研究者们整合了多个来源的音频数据,包括CREMA、RAVDESS、SAVEE和TESS。这些数据集各自包含了丰富的情感标签,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。通过统一的数据预处理流程,这些音频文件被标准化,以便于后续的特征提取和模型训练。
使用方法
使用该数据集时,用户需确保数据集文件已正确放置在指定目录中。随后,通过运行主脚本`main.py`,系统将自动加载数据、提取特征并进行模型训练与评估。用户可以根据需要调整模型参数,以优化情感识别的准确性。
背景与挑战
背景概述
语音情感识别(Speech Emotion Recognition, SER)是人工智能领域的一个重要分支,旨在通过分析语音信号来识别和分类说话者的情感状态。随着情感计算和情感智能的兴起,SER在人机交互、心理健康监测和情感分析等多个领域展现出巨大的应用潜力。CREMA、RAVDESS、SAVEE和TESS是四个广泛使用的语音情感数据集,这些数据集包含了丰富的情感标注音频文件,涵盖了如悲伤、愤怒、厌恶、恐惧、快乐和中性等多种情感类别。这些数据集的创建和使用极大地推动了语音情感识别技术的发展,为研究人员提供了一个标准化的基准,以便于比较和评估不同的情感识别算法。
当前挑战
尽管CREMA、RAVDESS、SAVEE和TESS数据集在语音情感识别领域具有重要意义,但在其构建和应用过程中仍面临诸多挑战。首先,情感标注的准确性和一致性是一个关键问题,不同数据集之间的情感标签可能存在差异,这增加了模型训练的复杂性。其次,语音信号的多样性和噪声干扰使得特征提取和模型训练变得困难,尤其是在真实世界的环境中,语音信号的质量和清晰度可能受到多种因素的影响。此外,情感识别模型的泛化能力也是一个重要挑战,如何在不同说话者、不同语言和不同文化背景下保持模型的稳定性和准确性,是当前研究的一个热点问题。
常用场景
经典使用场景
在语音情感识别领域,CREMA、RAVDESS、SAVEE和TESS数据集被广泛应用于构建和验证情感分类模型。这些数据集包含了多种情感标签的音频文件,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。通过这些数据集,研究者能够提取音频特征,并利用机器学习技术,特别是深度学习模型,如卷积神经网络和递归神经网络,来识别和分类不同的情感状态。这种应用场景不仅推动了情感识别技术的发展,也为情感计算和情感智能提供了坚实的基础。
解决学术问题
这些数据集解决了语音情感识别中的关键学术问题,包括情感分类的准确性、模型的泛化能力以及情感识别在不同语境下的表现。通过提供多样化的情感样本和丰富的情感标签,这些数据集帮助研究者开发出更加鲁棒和精确的情感识别算法。此外,这些数据集还促进了跨学科研究,如心理学、计算机科学和人工智能的融合,从而推动了情感计算领域的进步。
实际应用
在实际应用中,这些数据集支持了多种情感识别系统的开发,如客户服务中的情感分析、心理健康监测以及自动驾驶中的驾驶员情绪识别。通过实时分析语音中的情感信息,这些系统能够提供更人性化的服务,改善用户体验,甚至在某些情况下,如心理健康监测,能够及时发现和干预潜在的心理问题。因此,这些数据集的应用不仅提升了技术水平,也带来了显著的社会和经济效益。
数据集最近研究
最新研究方向
在语音情感识别(Speech Emotion Recognition, SER)领域,最新的研究方向主要集中在多模态情感分析和跨文化情感识别上。随着深度学习技术的进步,研究者们开始探索如何结合语音、文本和视觉信息,以提高情感识别的准确性和鲁棒性。此外,跨文化情感识别的研究也日益受到关注,旨在解决不同文化背景下情感表达的差异性问题,从而提升模型的泛化能力。这些研究不仅推动了情感计算技术的发展,也为人机交互、心理健康监测等领域提供了新的应用前景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Hang Seng Index

恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。

www.hsi.com.hk 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

WEAR

WEAR数据集是由德国西根大学创建的户外运动数据集,专注于穿戴式和自我中心活动识别。该数据集包含18名参与者在10个不同户外地点进行的总共18种不同锻炼活动的数据。数据集通过穿戴在手腕和脚踝的传感器以及头戴式摄像头收集,记录了未修剪的惯性(加速度)和摄像头(自我中心视频)数据。WEAR数据集提供了一个具有挑战性的预测场景,通过故意引入的活动变化以及跨模式的整体小信息重叠来标记。该数据集适用于评估如何结合惯性和视觉特征的方法,旨在解决户外运动中活动识别的问题。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录