CREMA, RAVDESS, SAVEE, TESS|情感识别数据集|语音数据数据集
收藏语音情感识别数据集
数据集
该项目使用的数据集包括:
- CREMA: 包含标记有悲伤、愤怒、厌恶、恐惧、快乐和中性情感的音频文件。
- RAVDESS: 包含标记有中性、快乐、悲伤、愤怒、恐惧、厌恶和惊讶情感的音频文件。
- SAVEE: 包含标记有各种情感的音频文件。
- TESS: 包含标记有各种情感的音频文件。
功能
- 从CREMA、RAVDESS、SAVEE和TESS数据集中加载和预处理数据。
- 使用
librosa
进行特征提取。 - 使用
TensorFlow
和Keras
进行模型训练。 - 使用混淆矩阵和分类报告进行评估。
模型架构
模型使用TensorFlow
和Keras
构建,包括:
- 用于特征提取的卷积层。
- 用于分类的密集层。
- 用于正则化的Dropout层。
训练
模型训练包括:
- 使用早停法避免过拟合。
- 在平台期减少学习率以动态调整学习率。
- 保存训练过程中的最佳模型。
评估
评估使用:
- 混淆矩阵以可视化性能。
- 分类报告以提供精确度、召回率和F1分数。

CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
Hang Seng Index
恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。
www.hsi.com.hk 收录
alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9
该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。
huggingface 收录
WEAR
WEAR数据集是由德国西根大学创建的户外运动数据集,专注于穿戴式和自我中心活动识别。该数据集包含18名参与者在10个不同户外地点进行的总共18种不同锻炼活动的数据。数据集通过穿戴在手腕和脚踝的传感器以及头戴式摄像头收集,记录了未修剪的惯性(加速度)和摄像头(自我中心视频)数据。WEAR数据集提供了一个具有挑战性的预测场景,通过故意引入的活动变化以及跨模式的整体小信息重叠来标记。该数据集适用于评估如何结合惯性和视觉特征的方法,旨在解决户外运动中活动识别的问题。
arXiv 收录
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录