OlhaHavryliuk/UA-SER

Name: OlhaHavryliuk/UA-SER
Creator: OlhaHavryliuk
Published: 2026-04-30 20:09:06
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/OlhaHavryliuk/UA-SER

下载链接

链接失效反馈

官方服务：

资源简介：

UA-SER是一个乌克兰语的情感语音识别数据集，包含952个语音片段，覆盖四种情感类别（愤怒、快乐、中性、悲伤）。这些片段由三位乌克兰语母语者通过多数投票进行标注，用于训练和评估乌克兰语的情感语音识别模型。数据集提供了音频文件和元数据文件，音频文件为16 kHz单声道WAV格式，元数据文件包含文件名、情感标签、持续时间、文本转录、说话者ID和数据集划分等信息。数据集的划分是说话者不相交的，以确保训练集和测试集之间没有重叠的说话者。

UA-SER is a labelled Ukrainian emotional speech corpus of 952 clips across four emotion classes (angry, happy, neutral, sad), collected and annotated for the purpose of training and evaluating Speech Emotion Recognition (SER) models on Ukrainian. The dataset provides audio files in 16 kHz mono WAV format and a metadata file containing filename, emotion label, duration, text transcription, speaker ID, and dataset split. The split is speaker-disjoint to ensure no speaker appears in both train and test sets.

提供机构：

OlhaHavryliuk

搜集汇总

数据集介绍

构建方式

UA-SER是专为乌克兰语语音情感识别任务构建的数据集，填补了该低资源语言领域公开情感语音数据的空白。其构建过程涵盖了从多个语料源中筛选出的952条短时自然话语片段，涵盖愤怒、快乐、中性、悲伤四种情感类别。每条音频由三位母语为乌克兰语的标注者独立进行情感标注，并通过多数投票机制确定最终标签，未达成一致的样本被剔除。数据集按照说话人无重叠原则，以80/20的比例划分为训练集和测试集，确保同一说话人不会同时出现在两个子集中，从而增强了模型评估的泛化能力。

特点

该数据集在规模与质量之间实现了精心平衡，共有400位说话人贡献了约33分钟的语音数据，平均时长仅2.07秒，适合情感识别任务的快速处理。情感分布相对均衡，各类别样本数在222至259之间。值得一提的是，性别信息通过文件名后缀编码，便于进行性别相关的分析。标注者间的一致性Fleiss κ值为0.46，属于中等一致性水平，与其他自然情感语料库的结果相当，体现了标注过程的真实性和可靠性。音频采用16kHz采样率的单声道WAV格式，支持主流的语音处理工具。

使用方法

使用UA-SER数据集时，可直接通过pandas库读取附带的dataset.csv元数据文件，其中包含文件名、情感标签、时长、转写文本、说话人ID及数据划分信息。音频文件以WAV格式存储于clips文件夹下，用户可借助librosa等音频处理库加载音频，示例代码展示了加载测试集第一条音频的流程。数据集适合用于训练和评估基于深度学习或传统方法的语音情感识别模型，其说话人无重叠的划分方式保证了对未知说话人情感识别能力的客观评估。

背景与挑战

背景概述

UA-SER（Ukrainian Speech Emotion Recognition Corpus）是一个面向乌克兰语语音情感识别的小型标注语料库，包含952条音频片段，涵盖愤怒、高兴、中性、悲伤四种情感类别。该数据集由多位乌克兰研究人员于近期创建，旨在填补乌克兰语作为低资源语言在情感语音数据方面的空白。研究团队从400位说话人采集自然话语，并由三位母语标注者通过多数投票法完成标注，最终生成说话人无重叠的训练集（80%）与测试集（20%）。UA-SER的发布为乌克兰语语音情感识别模型的训练与评估提供了首个公开基准，推动了低资源语言情感计算研究的进展。

当前挑战

UA-SER所解决的核心领域问题是乌克兰语语音情感识别中缺乏公开标注语料库的困境，其构建面临多重挑战。首先，数据采集受限于低资源环境，需从有限渠道获取足量且自然的语音片段，情感分布的均衡性难以保证。其次，情感标注的主观性带来一致性难题，即使采用三位标注者多数投票，Fleiss κ系数仅为0.46（中等一致性），表明情感边界的模糊性。此外，数据集规模较小（不足1000条），且每段音频平均时长仅2.07秒，可能影响深度学习模型的泛化能力与鲁棒性。

常用场景

经典使用场景

UA-SER数据集专为乌克兰语语音情感识别（SER）任务而设计，在低资源语言的情感计算领域开辟了崭新的研究路径。该数据集收录了952段时长约33分钟的自然语音片段，涵盖愤怒、快乐、悲伤和中性四种基础情感类别，并严格遵循说话人不重叠的80/20训练测试划分策略。研究者通常利用此数据集训练基于深度学习的分类模型，如卷积神经网络或Transformer架构，以捕捉语音信号中的韵律、音色和语调等声学特征与情感标签之间的映射关系。该数据集因其在乌克兰语这一低资源语言中的唯一性，成为评估和改进跨语言SER系统泛化能力的标准基准平台。

衍生相关工作

围绕UA-SER数据集，学术界已衍生出一系列具有启发意义的研究工作。其中，基于该数据预训练的乌克兰语音学特征提取器被用于构建跨语言情感迁移模型，探索了从乌克兰语到其他低资源斯拉夫语言的情感知识共享范式。此外，研究者针对数据集中天然存在的类别不均衡和中等标注一致性问题，开发了对比学习增强的情感原型网络和置信度加权损失函数，这些方法在后续的俄语、波兰语情感语料库上同样展现出优越性能。更有团队利用该数据集的性别和说话人元信息，揭示了语音情感识别中性别偏差的量化表征与缓解策略，推动了公平性导向的情感计算研究议程的深化。

数据集最近研究