SER-RAVDESS-Augmented

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/yuvalira/SER-RAVDESS-Augmented

下载链接

链接失效反馈

官方服务：

资源简介：

RAVDESS语音子集的增强版本数据集，用于支持语音情感识别（SER）模型的鲁棒训练，如MS-SincResNet。每个样本包含一个.pt文件，存储原始波形（3秒，16kHz单声道）及其对应的情感标签（0-7）。数据集分为训练集、验证集和测试集，仅训练集进行了增强。增强策略包括随机变换以改进泛化能力。所有文件存储在压缩档案中，可以使用PyTorch加载。

创建时间：

2025-05-25

原始信息汇总

RAVDESS-SER-Augmented 数据集概述

数据集简介

该数据集是RAVDESS语音子集的增强版本，用于支持语音情感识别(SER)模型的鲁棒训练。
包含每个样本的.pt文件，存储原始波形(3秒，16kHz单声道)和对应的情感标签(0-7)。

数据结构

每个.pt文件为字典结构，包含：
- "waveform": 1D浮点张量，形状为[48000](单声道，16kHz，3秒)
- "label": 整数(0-7)，代表8种情感类别

情感标签对照表

代码	情感
0	中性
1	平静
2	快乐
3	悲伤
4	愤怒
5	恐惧
6	厌恶
7	惊讶

数据划分

划分	原始大小	增强后大小
训练集	2304样本	9216样本(原始+每个样本3次增强)
验证集	288样本	288样本(未增强)
测试集	288样本	288样本(未增强)

增强策略

仅对训练集应用增强
使用轻量级、情感无关的增强方法，包括：
- 音量变化：±5%
- 时间偏移：±500样本
- 高斯噪声：标准差∈[0.001,0.004]
每个原始训练样本增强3次
使用LightEmotionAugment类，应用概率为0.4

文件格式

所有文件存储在压缩包expanded_dataset.zip中
文件加载方式： python import torch data = torch.load("sample_123.pt") waveform = data["waveform"] # 形状: [1, 48000] label = data["label"] # 0-7的整数

数据来源

基础数据集：RAVDESS - Emotional Speech Audio
增强和训练代码：SER-Sinc GitHub仓库

许可协议

采用知识共享署名4.0国际许可协议

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，数据增强技术对于提升模型泛化能力至关重要。SER-RAVDESS-Augmented数据集基于RAVDESS语音子集，通过精心设计的增强策略构建而成。原始训练集中的每个样本均生成3个增强版本，采用音量微调（±5%）、时间偏移（±500采样点）和高斯噪声注入（标准差0.001-0.004）三种情感无关的变换方式，通过Torchaudio工具以0.4的概率随机应用，最终将训练集规模从2304样本扩展至9216样本，同时保持验证集和测试集原始状态以保障评估可靠性。

使用方法

针对深度学习研究者的使用需求，数据集采用高度结构化的存储方案。每个样本以.pt文件独立封装，内含48000维波形张量和0-7整数标签，可通过PyTorch标准接口直接加载。建议研究者将增强后的训练集用于模型优化阶段，原始验证集和测试集则作为性能验证基准。数据加载仅需调用torch.load()方法即可获取波形-标签对，这种设计显著降低了数据预处理复杂度，使研究者能聚焦于模型架构创新和算法改进。

背景与挑战

背景概述

SER-RAVDESS-Augmented数据集是基于RAVDESS语音子集增强构建的语音情感识别（SER）专用数据集，由研究团队通过数据增强技术扩展原始样本规模，旨在提升深度神经网络在情感分类任务中的泛化能力。该数据集由多伦多瑞尔森大学心理声学实验室于2018年发布的RAVDESS原始语料衍生而来，通过音量调节、时移扰动和高斯噪声注入三种数据增强策略，将训练集规模扩展至原始数据的4倍。作为语音情感计算领域的重要基准数据，其8类精细情感标注体系为探究声学特征与情绪状态的映射关系提供了标准化研究平台。

当前挑战

语音情感识别面临的核心挑战在于声学特征与情绪表达间存在高度非线性关联，同一情感在不同说话人、文化背景和语境下呈现显著声学变异。SER-RAVDESS-Augmented构建过程中需解决增强数据的情感保真度问题，确保音量调整等物理变换不会扭曲原始情感特征。技术挑战还包括平衡增强多样性（防止模式坍塌）与情感一致性（避免标签噪声），以及保持验证集和测试集的纯净性以进行可靠评估。数据层面存在的样本不平衡问题，如恐惧和厌恶等低频情感类别的代表性不足，仍是影响模型性能的关键瓶颈。

常用场景

经典使用场景

在语音情感识别研究领域，SER-RAVDESS-Augmented数据集通过增强原始RAVDESS语音子集，为模型训练提供了更为丰富的样本。该数据集特别适用于训练和评估基于深度学习的语音情感识别模型，如MS-SincResNet，其经典使用场景包括模型鲁棒性测试和跨数据库情感识别性能验证。

解决学术问题

该数据集有效解决了语音情感识别研究中训练数据不足和模型泛化能力弱的问题。通过引入音量变化、时间偏移和高斯噪声等增强策略，显著提升了模型对真实场景中语音变化的适应能力，为情感计算领域的算法创新提供了标准化评估基准。

实际应用

在实际应用层面，该数据集支撑的语音情感识别技术可广泛应用于智能客服情绪分析、心理健康监测系统以及人机交互界面优化。其增强后的训练样本特别有助于开发对背景噪声和语音变化具有鲁棒性的实时情感识别系统。

数据集最近研究