EmoTale
收藏arXiv2025-08-20 更新2025-08-22 收录
下载链接:
https://arxiv.org/abs/2508.14548v1
下载链接
链接失效反馈官方服务:
资源简介:
EmoTale是一个包含450个丹麦语和350个英语语音记录的语料库,每个记录都有相应的情感注释。该数据集旨在为丹麦语语音情感识别提供基础设施,以支持现有的语音处理和SER在丹麦语人群中的评估和部署。数据集包含18位参与者的情感语音,其中12位为女性,6位为男性。数据收集过程类似于柏林情感语音数据库(Emo-DB),参与者被要求用五种不同的情感表演五个句子。除了情感类别标签外,EmoTale语料库还采用维度标签对语音情感样本进行注释,包括激活/唤醒、效价和优势。
EmoTale is a corpus consisting of 450 Danish and 350 English audio recordings, each paired with corresponding emotion annotations. This dataset aims to provide infrastructure for Danish speech emotion recognition, supporting the evaluation and deployment of existing speech processing and SER technologies among Danish-speaking populations. It includes emotional speech from 18 participants, 12 of whom are female and 6 male. The data collection procedure is similar to that of the Berlin Emotional Speech Database (Emo-DB): participants were asked to recite five sentences while expressing five distinct emotions. In addition to categorical emotion labels, the EmoTale corpus also annotates speech emotion samples with dimensional labels covering activation/arousal, valence, and dominance.
提供机构:
Technical University of Denmark, University Grenoble Alpes, Queensland University of Technology
创建时间:
2025-08-20
原始信息汇总
EmoTale: An Enacted Speech-emotion Dataset in Danish
数据集基本信息
- 标题: EmoTale: An Enacted Speech-emotion Dataset in Danish
- arXiv标识符: arXiv:2508.14548v1
- 提交日期: 2025年8月20日
- 作者: Maja J. Hjuler, Harald V. Skat-Rørdam, Line H. Clemmensen, Sneha Das
- 会议: 将发表于ASRU 2025会议
数据集描述
EmoTale是一个包含丹麦语和英语语音录音的数据集,附带表演情感标注。该数据集旨在解决小语种(如丹麦语)缺乏功能性情感语音数据集的问题。目前已知的丹麦语情感语音数据库仅有1997年发布的Danish Emotional Speech (DES)。
技术验证
研究团队通过语音情感识别(SER)模型验证了数据集的有效性:
- 使用自监督语音模型(SSLM)嵌入和openSMILE特征提取器开发SER模型
- 发现嵌入方法优于手工制作的特征
- 最佳模型在使用留一说话人交叉验证时,在EmoTale语料库上达到64.1%的未加权平均召回率(UAR),与DES上的性能相当
相关领域
- 计算语言学(Computation and Language)
- 声音(Sound)
- 音频与语音处理(Audio and Speech Processing)
资源链接
- 论文PDF: https://doi.org/10.48550/arXiv.2508.14548
- arXiv页面: https://arxiv.org/abs/2508.14548v1
搜集汇总
数据集介绍

构建方式
在情感语音识别研究领域,丹麦语作为小语种长期缺乏高质量数据集。EmoTale的构建过程严格遵循实验语音学规范,通过招募18名具有表演经验的丹麦语和英语双语参与者,在隔音环境中使用专业麦克风录制语音样本。参与者根据预先设计的五类情感(中性、愤怒、悲伤、快乐、无聊)演绎五组情感中性句子,每组句子采用完全演绎后再切换情感的序列化采集策略,最终保留每位参与者每种情感的末次录音,共获得800条48kHz采样率的音频数据。
特点
该数据集的核心特征体现在多维度标注体系与双语平行语料设计。除基础的情感类别标签外,三位独立标注者为每条语音提供唤醒度、效价和支配度的三维连续标注,采用1-5分半间隔标度,形成兼具分类与维度特性的复合标注系统。数据集包含450条丹麦语和350条英语平行语音样本,所有句子均翻译自德语Emo-DB数据库以确保情感中性,参与者年龄跨度为9-39岁且性别分布均衡(12女6男),这种设计既保证了情感表达的多样性,又为跨语言语音情感研究提供了对比基础。
使用方法
该数据集适用于语音情感识别模型的训练与验证,特别支持跨语言迁移学习研究。研究者可提取openSMILE工具包生成的eGeMAPS或ComParE声学特征,亦可利用预训练语音模型的嵌入表示(如wav2vec2)作为输入特征。建议采用留一说话人交叉验证策略评估模型性能,重点关注未加权平均召回率(UAR)指标。对于跨语种实验,可借助丹麦语-英语平行样本探究语言不变的情感表征学习,同时利用三维连续标注开发回归模型预测情感维度值。数据集配套的数据表详细说明了伦理使用规范与技术细节。
背景与挑战
背景概述
EmoTale数据集由丹麦技术大学的研究团队于2025年创建,旨在填补丹麦语情感语音识别资源匮乏的空白。该数据集包含450条丹麦语和350条英语情感语音样本,采用演绎式情感表达方式,标注了分类情感标签(中性、愤怒、悲伤、快乐、无聊)及维度标签(唤醒度、效价、支配度)。作为自1997年丹麦情感语音数据库(DES)后首个丹麦语情感语音资源,其设计借鉴了柏林情感语音数据库(Emo-DB)的框架,通过跨语言对比验证了预训练模型在低资源语言情感识别中的迁移能力,为北欧语言情感计算研究提供了关键基础设施。
当前挑战
该数据集主要解决小语种情感语音识别中的资源稀缺问题,其核心挑战在于跨语言情感表征的一致性建模与标注主观性处理。构建过程中需克服多重困难:一是丹麦语语音数据采集的稀缺性导致参与者招募难度高;二是情感标注存在主观差异,需通过多标注者协议和统计指标(科恩卡帕系数0.71-0.85,一致性相关系数0.57-0.75)确保可靠性;三是需平衡演绎情感与自然情感的差异,通过情感中立句子设计减少语境偏差;四是伦理合规要求,需实现数据伪匿名化处理并符合欧盟通用数据保护条例。
常用场景
经典使用场景
在语音情感识别研究中,EmoTale数据集被广泛应用于跨语言情感建模的基准测试。该数据集通过包含丹麦语和英语的双语语音样本,支持研究者探索语言无关的情感表征学习,其经典使用场景包括训练和评估基于自监督语音模型嵌入的情感分类器,尤其在留一说话人交叉验证框架下验证模型泛化能力。
衍生相关工作
EmoTale衍生的经典工作包括基于wav2vec2框架的跨语言情感识别模型,如使用维度标签微调的w2v2-FT-dim模型,其在多项基准测试中显著优于手工特征方法。此外,该数据集启发了对跨文化情感标注一致性的研究,促进了多语种情感计算资源的标准化工。
数据集最近研究
最新研究方向
在语音情感识别领域,EmoTale数据集的推出显著填补了丹麦语情感语音资源的空白,推动了小语种SER模型的发展。当前研究聚焦于自监督语音模型嵌入的特征提取技术,相比传统手工特征展现出更优的跨语种迁移能力。该数据集支持多维情感标注(唤醒度、效价和支配度),为探索情感表达的跨文化差异性提供了重要基础。其与Emo-DB、DES等基准数据集的对比验证了模型泛化性能,尤其在跨语种情感特征迁移方面呈现出前沿应用潜力,为低资源语言的语音情感计算提供了新的评估范式和理论基础。
相关研究论文
- 1EmoTale: An Enacted Speech-emotion Dataset in DanishTechnical University of Denmark, University Grenoble Alpes, Queensland University of Technology · 2025年
以上内容由遇见数据集搜集并总结生成



