five

CREMA, RAVDESS, SAVEE, TESS|情感识别数据集|音频数据分析数据集

收藏
github2024-07-13 更新2024-07-14 收录
情感识别
音频数据分析
下载链接:
https://github.com/Shengwei-Peng/Speech-Emotion-Recognition
下载链接
链接失效反馈
资源简介:
该项目使用的数据集包括:CREMA包含带有悲伤、愤怒、厌恶、恐惧、快乐和中性情绪标签的音频文件;RAVDESS包含带有中性、快乐、悲伤、愤怒、恐惧、厌恶和惊讶情绪标签的音频文件;SAVEE和TESS包含带有各种情绪标签的音频文件。
创建时间:
2024-06-22
原始信息汇总

语音情感识别数据集

数据集

本项目使用的数据集包括:

  • CREMA: 包含标记为悲伤、愤怒、厌恶、恐惧、快乐和中性情感的音频文件。
  • RAVDESS: 包含标记为中性、快乐、悲伤、愤怒、恐惧、厌恶和惊喜情感的音频文件。
  • SAVEE: 包含标记有各种情感的音频文件。
  • TESS: 包含标记有各种情感的音频文件。

功能

  • 从CREMA、RAVDESS、SAVEE和TESS数据集中加载和预处理数据。
  • 使用librosa进行特征提取。
  • 使用TensorFlowKeras进行模型训练。
  • 使用混淆矩阵和分类报告进行评估。

模型架构

模型使用TensorFlowKeras构建,包括:

  • 用于特征提取的卷积层。
  • 用于分类的密集层。
  • 用于正则化的丢弃层。

训练

模型训练包括:

  • 使用早停法避免过拟合。
  • 在平台期减少学习率以动态调整学习率。
  • 在训练期间保存最佳模型。

评估

评估使用:

  • 混淆矩阵来可视化性能。
  • 分类报告提供精确度、召回率和F1分数。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多个公开的语音情感识别数据集,包括CREMA、RAVDESS、SAVEE和TESS。这些数据集各自包含了标注有不同情感类别的音频文件,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。通过整合这些数据集,研究者能够构建一个多样化且全面的语音情感识别数据集,以支持机器学习模型的训练和评估。
使用方法
使用该数据集时,首先需确保数据集文件已正确放置在指定目录中。随后,用户可以通过运行`main.py`脚本来启动模型的训练和评估过程。该脚本将自动加载数据集,进行特征提取,并使用`TensorFlow`和`Keras`构建的模型进行训练。训练过程中,模型将根据验证集的表现动态调整学习率,并保存最佳模型。最终,用户可以通过混淆矩阵和分类报告来评估模型的性能。
背景与挑战
背景概述
语音情感识别(Speech Emotion Recognition, SER)是人工智能领域的一个重要研究方向,旨在通过分析语音信号来识别和分类说话者的情感状态。该领域的研究自20世纪末以来逐渐兴起,主要研究人员和机构包括多伦多大学、剑桥大学等。核心研究问题是如何从复杂的语音信号中提取有效的情感特征,并利用这些特征进行准确的情感分类。CREMA、RAVDESS、SAVEE和TESS等数据集的创建,为这一领域的研究提供了丰富的数据资源,极大地推动了语音情感识别技术的发展。这些数据集包含了多种情感标签的音频文件,为研究人员提供了多样化的训练和测试数据,从而促进了情感识别模型的优化和性能提升。
当前挑战
尽管CREMA、RAVDESS、SAVEE和TESS等数据集为语音情感识别提供了宝贵的资源,但在实际应用中仍面临诸多挑战。首先,语音信号的情感表达具有高度的主观性和上下文依赖性,导致情感标签的标注存在不一致性。其次,不同情感之间的语音特征差异较小,增加了分类模型的难度。此外,数据集的构建过程中,如何确保音频样本的多样性和代表性,以及如何处理噪声和背景干扰,也是一大挑战。这些因素共同影响了情感识别模型的准确性和鲁棒性,需要在未来的研究中进一步探索和解决。
常用场景
经典使用场景
在语音情感识别(Speech Emotion Recognition, SER)领域,CREMA、RAVDESS、SAVEE和TESS数据集被广泛应用于情感分类任务。这些数据集包含了多种情感标签的音频文件,如悲伤、愤怒、厌恶、恐惧、快乐和中性等。通过这些数据集,研究者可以训练和验证机器学习模型,以准确识别和分类语音中的情感状态。这种应用场景不仅在学术研究中具有重要意义,也在实际应用中展现了巨大的潜力。
解决学术问题
这些数据集在解决语音情感识别领域的学术问题中发挥了关键作用。它们为研究者提供了一个标准化的数据平台,用于探索和验证各种情感识别算法。通过这些数据集,研究者可以深入研究情感特征的提取、模型的训练和优化,以及情感分类的准确性评估。这不仅推动了语音情感识别技术的发展,也为相关领域的研究提供了宝贵的数据资源。
实际应用
在实际应用中,这些数据集支持了多种语音情感识别系统的开发和部署。例如,在客户服务领域,通过识别客户的情感状态,可以提供更加个性化和高效的服务。在医疗健康领域,情感识别技术可以帮助监测和评估患者的心理状态,从而提供及时的心理干预。此外,在教育、娱乐和人机交互等领域,语音情感识别技术也展现了广泛的应用前景。
数据集最近研究
最新研究方向
在语音情感识别(Speech Emotion Recognition, SER)领域,最新的研究方向主要集中在多模态情感识别和跨文化情感识别上。多模态情感识别通过结合语音、面部表情和文本等多模态数据,提升情感识别的准确性和鲁棒性。跨文化情感识别则关注于不同文化背景下情感表达的差异,通过构建跨文化情感数据库和模型,提高情感识别系统在不同文化环境中的适应性。这些研究不仅推动了情感计算技术的发展,也为人机交互、心理健康监测等领域提供了重要的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ActivityNet Captions

The ActivityNet Captions dataset is built on ActivityNet v1.3 which includes 20k YouTube untrimmed videos with 100k caption annotations. The videos are 120 seconds long on average. Most of the videos contain over 3 annotated events with corresponding start/end time and human-written sentences, which contain 13.5 words on average. The number of videos in train/validation/test split is 10024/4926/5044, respectively.

Papers with Code 收录

GEO (Gene Expression Omnibus)

GEO (Gene Expression Omnibus) is a public functional genomics data repository supporting MIAME-compliant data submissions. There are also tools provided to help users query and download experiments and curated gene expression profiles.

OPEN DATA NETWORK 收录

中文人名语料库(Chinese-Names-Corpus)

本项目包含多个数据集,如中文常见人名、中文古代人名、中文姓氏等,数据大小从数千到数百万不等,语料来源广泛,经过数据清洗处理,适用于中文分词、人名识别等场景。

github 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录