RAVDESS

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/Lamis-Amd/emotion-recognition-RAVDESS

下载链接

链接失效反馈

官方服务：

资源简介：

RAVDESS数据集包含短时（大约4秒长）的视频剪辑，记录了演员通过两句话表现出的不同情绪。我们将提取和结合RGB帧与MFCCs，并利用视频和音频信息源以实现更好的预测。

The RAVDESS dataset comprises short video clips, each approximately 4 seconds in length, capturing actors expressing various emotions through two spoken sentences. We will extract and integrate RGB frames with MFCCs (Mel-frequency cepstral coefficients), utilizing both video and audio information sources to achieve enhanced predictive performance.

创建时间：

2024-04-19

原始信息汇总

数据集概述：emotion-recognition-RAVDESS

数据集内容

数据类型：包含短视频（约4秒），视频中演讲者通过2句话表达不同情绪。
数据格式：mp4视频文件，标签信息包含在文件名中。

数据预处理

音频处理：
- 去除视频开头和结尾的静音部分。
- 从视频中提取音频。
- 提取24个梅尔频率倒谱系数（MFCCs）。
- 标准化MFCCs，采用零均值和单位方差。
- 使用预填充统一样本长度。
视觉处理：
- 从图像中提取面部。
- 将面部图像大小调整为64x64。
- 对帧进行下采样以减少复杂度。
- 应用数据增强和缩放到[0, 1]。
数据分割：
- 将数据集分割为训练、验证和测试集，确保同一演讲者的样本不同时出现在多个集合中。

模型构建

音频子网络：
- BLSTM（64单元，返回序列）+ Dropout 0.5 + BLSTM（64单元）+ 密集层（128单元，ReLU）。
视觉子网络：
- 选择视觉骨干网络，如VGG或ResNet架构，应用帧级处理。
- 应用时间维度上的最大池化以减少复杂度。
模型融合：
- 将音频和视觉子网络的最终隐藏表示连接。
- 应用全连接层（256单元，ReLU），随后是另一个密集层（7单元，softmax）。

标签信息

类别数量：8类，但通常将第1类（中性）和第2类（平静）合并为一类。
标签编码：可选使用one-hot编码或保持标签在[0, 6]范围内，使用sparse_categorical_crossentropy损失。

搜集汇总

数据集介绍

构建方式

RAVDESS数据集的构建基于对视频和音频数据的精细处理。首先，从视频中提取音频，并使用librosa库计算24个梅尔频率倒谱系数（MFCCs），通过标准化和预填充确保样本长度一致。视觉部分则通过提取面部图像并调整至64x64分辨率，随后进行数据增强和缩放。此外，通过合并相似情绪类别（如中性与平静），数据集的复杂性得以降低。最终，数据集被划分为训练、验证和测试集，确保同一说话者的样本不会出现在多个集合中。

使用方法

使用RAVDESS数据集时，首先需下载并解压数据，随后进行预处理，包括音频的MFCC提取和视频的面部图像提取。接着，将数据划分为训练、验证和测试集，并创建生成器以迭代处理音频和视频表示。模型构建方面，可以分别构建音频和视频子网络，并通过连接最终隐藏层进行多模态融合。最终，使用softmax层进行情绪分类，实现情绪识别任务。

背景与挑战

背景概述

RAVDESS数据集，全称为Ryerson Audio-Visual Database of Emotional Speech and Song，是由Ryerson大学创建的一个多模态情感识别数据集。该数据集包含了约4秒长的视频片段，记录了演员通过两句话表达不同情感的过程。RAVDESS数据集的核心研究问题是如何通过结合视频和音频信息来提高情感识别的准确性。自2018年发布以来，RAVDESS数据集已成为情感计算领域的重要资源，推动了多模态深度学习技术的发展，特别是在情感识别和分析方面。

当前挑战

RAVDESS数据集在构建和应用过程中面临多项挑战。首先，数据集的预处理步骤复杂，包括从视频中提取音频、去除静音部分、计算梅尔频率倒谱系数（MFCC）等，这些步骤需要精确的技术实现。其次，视频和音频信息的融合是一个技术难点，如何有效地结合两种模态的信息以提高情感识别的准确性，是当前研究的重点。此外，数据集中的情感类别（如中性与平静）相似度高，如何区分这些类别也是一个挑战。最后，数据集的分割和生成器的设计需要确保训练、验证和测试集的独立性，以避免数据泄露。

常用场景

经典使用场景

在情感识别领域，RAVDESS数据集被广泛用于构建多模态深度神经网络。该数据集包含约4秒长的视频片段，记录了演员通过两句话表达不同情感的过程。通过提取视频中的RGB帧和音频中的梅尔频率倒谱系数（MFCCs），结合视频和音频信息，研究人员能够实现更精确的情感预测。这种多模态融合的方法在情感识别任务中表现出色，为后续研究提供了坚实的基础。

解决学术问题

RAVDESS数据集解决了情感识别研究中的多模态数据融合问题。传统方法往往依赖单一模态（如视频或音频）进行情感分析，而RAVDESS通过提供同步的视频和音频数据，使得研究人员能够探索多模态融合的有效性。这不仅提升了情感识别的准确性，还为多模态学习提供了新的研究方向，推动了情感计算领域的发展。

实际应用

RAVDESS数据集在实际应用中具有广泛的前景。例如，在人机交互领域，通过分析用户的面部表情和语音情感，系统可以更智能地响应用户需求，提升用户体验。此外，在心理健康监测中，该数据集可用于开发情感识别工具，帮助识别和干预潜在的心理问题。这些应用不仅提高了技术的实用性，还为社会福祉带来了积极影响。

数据集最近研究