CREMA, RAVDESS, SAVEE, TESS
收藏github2024-07-13 更新2024-07-14 收录
下载链接:
https://github.com/Shengwei-Peng/Speech-Emotion-Recognition
下载链接
链接失效反馈官方服务:
资源简介:
该项目使用的数据集包括:CREMA包含带有悲伤、愤怒、厌恶、恐惧、快乐和中性情绪标签的音频文件;RAVDESS包含带有中性、快乐、悲伤、愤怒、恐惧、厌恶和惊讶情绪标签的音频文件;SAVEE和TESS包含带有各种情绪标签的音频文件。
The datasets utilized in this project are as follows: CREMA contains audio files labeled with emotions including sadness, anger, disgust, fear, happiness, and neutral; RAVDESS contains audio files labeled with emotions including neutral, happiness, sadness, anger, fear, disgust, and surprise; SAVEE and TESS contain audio files labeled with various emotions.
创建时间:
2024-06-22
原始信息汇总
语音情感识别数据集
数据集
本项目使用的数据集包括:
- CREMA: 包含标记为悲伤、愤怒、厌恶、恐惧、快乐和中性情感的音频文件。
- RAVDESS: 包含标记为中性、快乐、悲伤、愤怒、恐惧、厌恶和惊喜情感的音频文件。
- SAVEE: 包含标记有各种情感的音频文件。
- TESS: 包含标记有各种情感的音频文件。
功能
- 从CREMA、RAVDESS、SAVEE和TESS数据集中加载和预处理数据。
- 使用
librosa进行特征提取。 - 使用
TensorFlow和Keras进行模型训练。 - 使用混淆矩阵和分类报告进行评估。
模型架构
模型使用TensorFlow和Keras构建,包括:
- 用于特征提取的卷积层。
- 用于分类的密集层。
- 用于正则化的丢弃层。
训练
模型训练包括:
- 使用早停法避免过拟合。
- 在平台期减少学习率以动态调整学习率。
- 在训练期间保存最佳模型。
评估
评估使用:
- 混淆矩阵来可视化性能。
- 分类报告提供精确度、召回率和F1分数。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于多个公开的语音情感识别数据集,包括CREMA、RAVDESS、SAVEE和TESS。这些数据集各自包含了标注有不同情感类别的音频文件,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。通过整合这些数据集,研究者能够构建一个多样化且全面的语音情感识别数据集,以支持机器学习模型的训练和评估。
使用方法
使用该数据集时,首先需确保数据集文件已正确放置在指定目录中。随后,用户可以通过运行`main.py`脚本来启动模型的训练和评估过程。该脚本将自动加载数据集,进行特征提取,并使用`TensorFlow`和`Keras`构建的模型进行训练。训练过程中,模型将根据验证集的表现动态调整学习率,并保存最佳模型。最终,用户可以通过混淆矩阵和分类报告来评估模型的性能。
背景与挑战
背景概述
语音情感识别(Speech Emotion Recognition, SER)是人工智能领域的一个重要研究方向,旨在通过分析语音信号来识别和分类说话者的情感状态。该领域的研究自20世纪末以来逐渐兴起,主要研究人员和机构包括多伦多大学、剑桥大学等。核心研究问题是如何从复杂的语音信号中提取有效的情感特征,并利用这些特征进行准确的情感分类。CREMA、RAVDESS、SAVEE和TESS等数据集的创建,为这一领域的研究提供了丰富的数据资源,极大地推动了语音情感识别技术的发展。这些数据集包含了多种情感标签的音频文件,为研究人员提供了多样化的训练和测试数据,从而促进了情感识别模型的优化和性能提升。
当前挑战
尽管CREMA、RAVDESS、SAVEE和TESS等数据集为语音情感识别提供了宝贵的资源,但在实际应用中仍面临诸多挑战。首先,语音信号的情感表达具有高度的主观性和上下文依赖性,导致情感标签的标注存在不一致性。其次,不同情感之间的语音特征差异较小,增加了分类模型的难度。此外,数据集的构建过程中,如何确保音频样本的多样性和代表性,以及如何处理噪声和背景干扰,也是一大挑战。这些因素共同影响了情感识别模型的准确性和鲁棒性,需要在未来的研究中进一步探索和解决。
常用场景
经典使用场景
在语音情感识别(Speech Emotion Recognition, SER)领域,CREMA、RAVDESS、SAVEE和TESS数据集被广泛应用于情感分类任务。这些数据集包含了多种情感标签的音频文件,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。通过这些数据集,研究者可以训练和验证机器学习模型,以准确识别和分类语音中的情感状态。这种应用场景不仅在学术研究中具有重要意义,也在实际应用中展现了巨大的潜力。
解决学术问题
这些数据集在解决语音情感识别领域的学术问题中发挥了关键作用。它们为研究者提供了一个标准化的数据平台,用于探索和验证各种情感识别算法。通过这些数据集,研究者可以深入研究情感特征的提取、模型的训练和优化,以及情感分类的准确性评估。这不仅推动了语音情感识别技术的发展,也为相关领域的研究提供了宝贵的数据资源。
实际应用
在实际应用中,这些数据集支持了多种语音情感识别系统的开发和部署。例如,在客户服务领域,通过识别客户的情感状态,可以提供更加个性化和高效的服务。在医疗健康领域,情感识别技术可以帮助监测和评估患者的心理状态,从而提供及时的心理干预。此外,在教育、娱乐和人机交互等领域,语音情感识别技术也展现了广泛的应用前景。
数据集最近研究
最新研究方向
在语音情感识别(Speech Emotion Recognition, SER)领域,最新的研究方向主要集中在多模态情感识别和跨文化情感识别上。多模态情感识别通过结合语音、面部表情和文本等多模态数据,提升情感识别的准确性和鲁棒性。跨文化情感识别则关注于不同文化背景下情感表达的差异,通过构建跨文化情感数据库和模型,提高情感识别系统在不同文化环境中的适应性。这些研究不仅推动了情感计算技术的发展,也为人机交互、心理健康监测等领域提供了重要的技术支持。
以上内容由遇见数据集搜集并总结生成



