FatimahEmadEldin/Yemeni-Speech-Emotion-Dataset

Name: FatimahEmadEldin/Yemeni-Speech-Emotion-Dataset
Creator: FatimahEmadEldin
Published: 2026-05-01 20:06:57
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/FatimahEmadEldin/Yemeni-Speech-Emotion-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

YSED — 也门语音情感数据集（音频分类重新打包版本）是一个包含1432个音频片段的也门阿拉伯语情感分类数据集，覆盖5种情绪类别：愤怒、恐惧、快乐、中立和悲伤。音频为48 kHz立体声.wav格式，中位持续时间约为2.7秒。数据集来源于71名也门志愿者（37男，34女），年龄在15-45岁之间，经过6名评委验证，Fleiss Kappa = 0.9。数据集采用80/10/10的比例进行分层训练/验证/测试分割，确保每个分割的情绪比例相同。该数据集适用于情感分类任务，但不适用于TTS或ASR任务。需要注意的是，数据集为也门方言，不是现代标准阿拉伯语（MSA），且分割未考虑说话者独立性，录音条件也有所不同。

YSED — Yemeni Speech Emotion Dataset (audio-classification repackaging) is a clean repackaging of YSED with a `metadata.csv` and stratified train/validation/test splits, for emotion classification on Yemeni Arabic. It contains 1432 audio clips across 5 emotion classes: angry, fearful, happy, neutral, sad. The audio is in 48 kHz stereo `.wav` format with a median duration of ~2.7 s. The dataset was collected from 71 Yemeni volunteers (37 M, 34 F), aged 15–45, and validated by 6 judges with Fleiss Kappa = 0.9. The dataset uses an 80/10/10 stratified split by emotion, ensuring the same emotion proportions in each split. This dataset is intended for emotion classification tasks, not for TTS or ASR. Note that the dataset is in the Yemeni dialect, not MSA, and the splits are not speaker-disjoint, with varying recording conditions.

提供机构：

FatimahEmadEldin

搜集汇总

数据集介绍

构建方式

Yemeni-Speech-Emotion-Dataset（YSED）是一个专为也门阿拉伯语语音情感识别设计的数据集。其构建基于模拟-诱导范式，邀请71名也门志愿者（37名男性，34名女性，年龄跨度15至45岁）在受控环境下录制语音样本。每位志愿者围绕愤怒、恐惧、快乐、中性和悲伤五种情感类别，分别朗读5个固定句子，共计25个句子，最终经过6名评审员的严格验证（Fleiss' Kappa系数达0.9），精选出1432个高质量音频片段。每个片段为48 kHz立体声WAV格式，中位时长约2.7秒。为进一步便于音频分类任务，原始数据被重新打包，生成了按情感类别进行分层抽样的训练集（1145条）、验证集（143条）和测试集（144条），确保了各划分中情感比例的一致性。

特点

该数据集的核心特色在于其针对也门阿拉伯语方言的专注性，这使其区别于大多数以现代标准阿拉伯语（MSA）为主的语音情感资源。数据集涵盖五种基本情感类别，标注清晰且经过多人交叉验证，保证了标注的信度。音频文件以统一的48 kHz立体声WAV格式存储，附带了文件名、情感标签、时长、采样率、声道数等元信息，便于直接加载。然而，需注意的是，由于原始语料未提供逐句文本转录，本数据集明确不适用于文本转语音（TTS）或语音识别（ASR）任务。此外，数据划分并非基于说话人分离（speaker-disjoint），且录音条件因志愿者个体差异而有所变化，这要求使用时需谨慎评估模型的泛化能力。

使用方法

使用YSED进行语音情感分类时，建议直接加载Hugging Face仓库中划分好的元数据文件（metadata_train.csv、metadata_validation.csv、metadata_test.csv）。用户可通过文件路径索引音频，并结合情感标签进行模型训练与评估。推荐使用音频分类领域的标准流程，如提取梅尔频谱图、MFCC或预训练音频嵌入（如Wav2Vec2、HuBERT等），输入至分类器中完成情感识别。由于数据集规模适中（约1432条），适合用于迁移学习或微调预训练模型。值得注意的是，若需进行更严苛的评估，用户可尝试从文件名中恢复说话人信息，重新构建说话人独立的划分。对于潜在的多语言或方言适应需求，建议在此数据集上微调后，再通过域适应技术迁移至其他阿拉伯语方言场景。

背景与挑战

背景概述

语音情感识别作为人机交互与情感计算领域的核心任务，旨在从语音信号中自动感知说话人的情绪状态。然而，现有研究高度集中于英语等资源丰富语言，阿拉伯语尤其是其方言变体的情感语音资源极为匮乏，严重制约了该领域在阿拉伯世界的技术发展。Yemeni-Speech-Emotion-Dataset（YSED）由Derhem、AL-Mekhlafi、AL-Majmar和AL-Makhlafi于2025年创建，致力于填补也门阿拉伯语方言在语音情感数据集上的空白。该数据集包含1432个录音片段，覆盖愤怒、恐惧、高兴、中性、悲伤五类基本情感，由71名也门志愿者（37名男性，34名女性）在15至45岁年龄段内录制，并经6名评委验证，Fleiss' Kappa系数高达0.9，确保了标注的可靠性。YSED的发布为低资源阿拉伯语方言的情感识别研究提供了关键基准，对推动阿拉伯世界人机交互系统的本地化与包容性发展具有重要影响力。

当前挑战

该数据集所应对的领域问题主要在于也门阿拉伯语作为高度方言化、资源稀缺的语言变体，其语音情感识别面临模型跨方言泛化能力低和训练数据匮乏的双重困境。具体而言，基于现代标准阿拉伯语或其它方言训练的模型难以直接迁移至也门方言，且缺乏足够规模的高质量情感语音样本。在构建过程中，YSED面临多重挑战：首先，录音条件因志愿者采用情境诱导法的自发录制而存在差异，导致背景噪声、语速及音量不一致，影响模型在真实场景下的鲁棒性；其次，数据集缺乏说话人身份信息，导致当前的划分策略无法实现说话人分离，高估了情感分类性能的泛化能力；此外，原始数据未提供逐句转录文本，约25句固定提示句的对应关系缺失，限制了其在语音合成或语音识别任务中的拓展应用。

常用场景

经典使用场景

也门语音情感数据集（YSED）作为阿拉伯语低资源方言的情感识别基准，经典使用场景聚焦于语音情感分类任务。研究者可基于1432条覆盖愤怒、恐惧、高兴、中性和悲伤五类情感的音频样本，训练深度学习模型以识别也门方言中的情感表达。该数据集提供了48kHz立体声波形文件及分层划分的训练-验证-测试集，便于进行可重复的监督学习实验，尤其适用于资源匮乏环境下的情感计算研究。

实际应用

在实际场景中，YSED可赋能中东地区人机交互系统，例如为也门方言的智能客服助理、心理健康筛查应用或车载情感感知界面提供情感理解能力。鉴于其模拟诱导录音的特性，该数据集适合部署在受控环境下的情感监测系统，但需注意在真实噪声环境中的泛化限制。此外，它还能为也门本土的社交媒体舆情分析或教育辅助工具调用情感发音模式。

衍生相关工作

YSED衍生出的相关工作包括：基于迁移学习的跨方言情感识别框架，尝试将MSA或黎凡特方言模型适配至也门方言；采用数据增强技术（如噪声注入、时域规整）缓解小样本过拟合问题的策略；以及从音高、能量等声学特征中提取情感特异性的可解释性分析。原始论文作者还提供了25句固定诱发语句的文本映射探索方向，为后续语音合成或情感TTS的扩展研究留下了空间。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集