five

KELONMYOSA/dusha_emotion_audio

收藏
Hugging Face2023-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KELONMYOSA/dusha_emotion_audio
下载链接
链接失效反馈
官方服务:
资源简介:
Dusha数据集是一个适用于语音情感识别(SER)任务的双模态语料库。该数据集包含约30万条俄语语音录音、其转录文本和情感标签。语料库总时长约为350小时。数据集选择了与虚拟助手对话中常见的四种基本情感:快乐(积极)、悲伤、愤怒和中性情感。

Dusha数据集是一个适用于语音情感识别(SER)任务的双模态语料库。该数据集包含约30万条俄语语音录音、其转录文本和情感标签。语料库总时长约为350小时。数据集选择了与虚拟助手对话中常见的四种基本情感:快乐(积极)、悲伤、愤怒和中性情感。
提供机构:
KELONMYOSA
原始信息汇总

Dusha 数据集概述

基本信息

  • 任务类别:音频分类
  • 语言:俄语
  • 数据集大小:10万至100万条记录
  • 数据集别名:Russian speech emotions

数据集描述

Dusha 是一个适用于语音情感识别任务的双模态语料库。该数据集包含约30万条俄语语音录音,以及对应的转录文本和情感标签。数据集总时长约350小时,涵盖四种基本情感:快乐(积极)、悲伤、愤怒和中性情感。

数据集内容

  • 约300,000条音频记录
  • 转录文本
  • 情感标签(快乐、悲伤、愤怒、中性)

数据集作者

  • Artem Sokolov
  • Fedor Minkin
  • Nikita Savushkin
  • Nikolay Karpov
  • Oleg Kutuzov
  • Vladimir Kondratenko
搜集汇总
数据集介绍
main_image_url
构建方式
在语音情感识别领域,构建高质量数据集是推动技术发展的基石。Dusha数据集源自俄罗斯语音交互场景,通过系统化采集约30万条俄语语音片段,涵盖虚拟助手对话中常见的四种基本情感:喜悦、悲伤、愤怒及中性状态。数据构建过程融合音频流与对应文本转录,形成双模态语料库,总时长约350小时,其原始素材经过情感标注与格式转换,最终形成适用于机器学习任务的标准化结构。
特点
作为俄语语音情感分析的重要资源,该数据集展现出鲜明的专业特性。其核心优势在于双模态设计,同步提供音频信号与精确文本转录,支持跨模态联合建模研究。情感标签体系聚焦虚拟助手交互场景中的四类典型情绪,数据规模达数十万级别,兼具广度与深度。语料均来自真实对话环境,蕴含自然语音韵律与情感表达变化,为模型训练提供了高度贴近实际应用的数据分布。
使用方法
在语音情感识别研究中,该数据集为算法开发与评估提供了完整框架。研究者可通过加载标准化音频文件与对应情感标签,直接进行端到端模型训练。数据集支持基于梅尔频谱或波形输入的深度学习架构,同时文本转录可用于多模态融合实验。典型使用流程包括数据分割、特征提取、模型训练及跨验证评估,其丰富样本量尤其适合预训练模型微调或鲁棒性测试,推动俄语情感计算技术迭代。
背景与挑战
背景概述
在语音情感识别领域,俄语资源的稀缺性长期制约着相关研究的深入发展。Dusha数据集由Artem Sokolov、Fedor Minkin等研究人员于2020年前后构建,旨在填补这一空白。该数据集聚焦于虚拟助手对话场景,收录了约30万条俄语语音样本,涵盖喜悦、悲伤、愤怒及中性四种基本情感,总时长约350小时。作为首个大规模俄语双模态情感语料库,它不仅推动了跨语言情感计算模型的进步,更为俄语自然语言处理与智能交互系统提供了关键数据支撑。
当前挑战
语音情感识别本身面临跨文化情感表达差异、声学特征模糊性等固有难题,而俄语独特的韵律结构进一步增加了模型泛化难度。在数据集构建过程中,研究者需克服标注一致性挑战:情感标签的标注高度依赖人工判断,易受主观因素影响;同时,从公开广播资源中提取并清洗语音数据时,需处理背景噪声、多说话人重叠等技术障碍,确保音频质量与文本转录的精准对齐。
常用场景
经典使用场景
在语音情感识别领域,Dusha数据集以其俄语语音的丰富标注成为经典资源。该数据集广泛应用于训练和评估深度学习模型,特别是针对俄语环境下的情感分类任务。研究者常利用其约30万条音频记录,涵盖快乐、悲伤、愤怒和中性四种基本情感,以优化卷积神经网络或循环神经网络在语音特征提取与情感映射方面的性能。这种应用不仅推动了多模态情感分析的发展,还为跨语言情感识别研究提供了重要基准。
解决学术问题
Dusha数据集有效解决了俄语语音情感识别研究中数据稀缺的瓶颈问题。通过提供大规模、高质量的情感标注语音样本,该数据集支持学术界探索语音信号中情感特征的提取与建模方法。它促进了基于端到端学习的情感分类框架的构建,并助力于解决噪声环境下情感识别的鲁棒性问题。这些进展深化了对语音情感计算的理论理解,为多语言情感分析系统的公平性评估奠定了基础。
衍生相关工作
围绕Dusha数据集,学术界衍生出多项经典研究工作。例如,基于该数据集的跨语言情感识别模型比较研究,揭示了语言特异性对情感表达的影响。部分工作专注于融合语音与文本模态的多任务学习框架,提升了情感分类的准确性。此外,有研究利用该数据集进行数据增强技术的探索,以解决情感类别不平衡问题。这些衍生工作不仅扩展了语音情感识别的理论边界,还为俄语自然语言处理社区提供了可复现的基准模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作