five

Emilia-with-Emotion-Annotations

收藏
Hugging Face2025-07-19 更新2025-07-20 收录
下载链接:
https://huggingface.co/datasets/laion/Emilia-with-Emotion-Annotations
下载链接
链接失效反馈
官方服务:
资源简介:
Emilia情感注释数据集是一个包含详细情感注释的增强版Emilia数据集,通过EmoNet套件模型提供对语音情感内容的深入洞察。该数据集包含54个分数,涵盖情感和副语言属性,以及情感标题,旨在支持情感智能AI的更细致的研究与开发。

Emilia情感注释数据集是一个包含详细情感注释的增强版Emilia数据集,通过EmoNet套件模型提供对语音情感内容的深入洞察。该数据集包含54个分数,涵盖情感和副语言属性,以及情感标题,旨在支持情感智能AI的更细致的研究与开发。
提供机构:
LAION eV
创建时间:
2025-07-05
原始信息汇总

数据集概述

数据集描述

  • 该数据集是Emilia数据集的增强版本,增加了详细的情感注释。
  • 注释使用EmoNet套件中的模型生成,旨在深入分析语音中的情感内容。
  • 每个样本包含54个情感和副语言属性评分,以及由BUD-E Whisper模型生成的情感标题。

数据集结构与访问

  • 数据集包含原始Emilia音频数据及新增的情感注释,以WebDataset格式提供。
  • 数据集分布在五个Hugging Face仓库中:
    • laion/Emilia-with-Emotion-Annotations
    • laion/Emilia-with-Emotion-Annotations2
    • laion/Emilia-with-Emotion-Annotations3
    • laion/Emilia-with-Emotion-Annotations4
    • laion/Emilia-with-Emotion-Annotations5
  • 需从所有五个仓库中获取数据以访问完整数据集。
  • 包含原始Emilia数据集的.tar文件,YODAS子集的文件名中包含特定后缀。

数据集统计

  • 总时长约215,600小时,合并了Emilia数据集和大部分YODAS数据集。

  • 语言分布:

    语言 Emilia时长(小时) Emilia-YODAS时长(小时) 总时长(小时)
    英语 46.8k 92.2k 139.0k
    中文 49.9k 0.3k 50.3k
    德语 1.6k 5.6k 7.2k
    法语 1.4k 7.4k 8.8k
    日语 1.7k 1.1k 2.8k
    韩语 0.2k 7.3k 7.5k
    总计 101.7k 113.9k 215.6k

评分解释

  • 包含40个情感类别和14个属性维度的原始评分及归一化Softmax概率。

  • 属性范围及描述:

    属性 范围 描述
    Valence -3至+3 -3: 极端负面, +3: 极端正面, 0: 中性
    Arousal 0至4 0: 非常平静, 4: 非常兴奋, 2: 中性
    Dominance -3至+3 -3: 极端顺从, +3: 极端主导, 0: 中性
    Age 0至6 0: 婴儿/幼儿, 2: 青少年, 4: 成人, 6: 非常年老
    Gender -2至+2 -2: 非常男性化, +2: 非常女性化, 0: 中性/不确定
    Humor 0至4 0: 非常严肃, 4: 非常幽默, 2: 中性
    Detachment 0至4 0: 非常脆弱, 4: 非常超然, 2: 中性
    Confidence 0至4 0: 非常自信, 4: 非常犹豫, 2: 中性
    Warmth -2至+2 -2: 非常冷漠, +2: 非常热情, 0: 中性
    Expressiveness 0至4 0: 非常单调, 4: 非常富有表现力, 2: 中性
    Pitch 0至4 0: 非常高音, 4: 非常低音, 2: 中性
    Softness -2至+2 -2: 非常刺耳, +2: 非常柔和, 0: 中性
    Authenticity 0至4 0: 非常虚假, 4: 非常真实, 2: 中性
    Recording Quality 0至4 0: 非常低, 4: 非常高, 2: 尚可
    Background Noise 0至3 0: 无噪音, 3: 强烈噪音

引用

bibtex @inproceedings{emilialarge, author={He, Haorui and Shang, Zengqiang and Wang, Chaoren and Li, Xuyuan and Gu, Yicheng and Hua, Hua and Liu, Liwei and Yang, Chen and Li, Jiaqi and Shi, Peiyang and Wang, Yuancheng and Chen, Kai and Zhang, Pengyuan and Wu, Zhizheng}, title={Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation}, booktitle={arXiv:2501.15907}, year={2025} }

@article{emonet_voice_2025, author={Schuhmann, Christoph and Kaczmarczyk, Robert and Rabby, Gollam and Friedrich, Felix and Kraus, Maurice and Nadi, Kourosh and Nguyen, Huu and Kersting, Kristian and Auer, Sören}, title={EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection}, journal={arXiv preprint arXiv:2506.09827}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音情感计算领域,Emilia-with-Emotion-Annotations数据集通过先进的模型标注技术实现了原始数据的深度增强。该数据集基于Emilia语音库,采用EmoNet套件中的模型对语音样本进行精细化情感标注,每段样本包含54维情感特征分数及由BUD-E Whisper模型生成的情感描述文本。数据整合过程中,将原始Emilia数据集与YODAS数据集进行合并,形成总时长约21.56万小时的多语言语料库,并通过WebDataset格式实现结构化存储。
使用方法
研究者可通过Hugging Face平台分发的五个子仓库获取完整数据集,需注意当前版本需手动合并各仓库内容。数据使用建议结合WebDataset格式的特性进行流式加载,特别适合大规模语音情感识别模型的训练。应用场景可涵盖情感计算模型的微调、跨语言情感模式分析,以及语音合成中的情感表达研究。为保障学术规范性,使用时应同时引用原始Emilia数据集和EmoNet-Voice相关论文。
背景与挑战
背景概述
Emilia-with-Emotion-Annotations数据集是在原始Emilia数据集基础上扩展的多语言语音情感标注数据集,由LAION团队于2025年发布。该数据集基于Haorui He等学者提出的Emilia大规模语音生成数据集,通过集成EmoNet-Voice模型提供的54维细粒度情感标注,显著提升了语音情感分析的深度与广度。作为情感智能AI领域的重要资源,它不仅覆盖215,600小时的多语言语音数据,还引入情感效价、唤醒度、支配性等14项声学属性维度,为语音情感计算、对话系统情感理解等研究提供了前所未有的数据支持。数据集融合了YODAS子集,进一步增强了语言多样性和标注丰富性,标志着多模态情感计算从粗粒度分类向细粒度解析的重要转变。
当前挑战
该数据集面临的核心挑战体现在两个层面:在领域问题层面,细粒度情感标注的可靠性受限于自动标注模型的性能边界,尤其对于文化特异性情感表达的跨语言泛化能力存在显著偏差;高维度情感向量与声学特征的映射关系尚未建立明确的理论框架,制约了标注结果的可解释性。在构建技术层面,多源数据整合导致标注标准不一致,需处理原始Emilia与YODAS数据集在采样率、信噪比等方面的异构性;215TB规模的分布式存储结构虽缓解了数据访问压力,但跨仓库数据一致性维护与版本控制增加了使用复杂度。此外,40类情感标签的Softmax归一化处理可能掩盖原始评分中的不确定性信息,对敏感型应用场景带来潜在风险。
常用场景
经典使用场景
在情感计算领域,Emilia-with-Emotion-Annotations数据集为研究者提供了丰富的语音情感标注资源。通过整合EmoNet套件模型生成的54维情感特征,该数据集支持对语音中微妙情感变化的深入分析。多语言覆盖和长达21万小时的标注时长,使其成为跨文化情感模式研究的理想基准。
解决学术问题
该数据集有效解决了情感语音合成领域缺乏细粒度标注的瓶颈问题。其涵盖40种情感类别和14种副语言属性的标准化评分,为建立情感维度连续预测模型提供了数据基础。特别在消除文化差异对情感表达影响的研究中,中英德等多语言平行数据具有独特价值。
实际应用
智能客服系统通过该数据集的标注框架,可精确识别用户语音中的挫败感或满意度。教育科技领域利用其年龄、性别维度的标注,开发出适配不同学习者特征的个性化语音教学系统。在临床心理学应用中,医师借助情感特征矩阵辅助诊断情绪障碍患者。
数据集最近研究
最新研究方向
在情感计算领域,Emilia-with-Emotion-Annotations数据集的推出为语音情感识别研究注入了新的活力。该数据集通过EmoNet套件模型生成的54维情感标注,为研究者提供了前所未有的细粒度情感分析能力。结合BUD-E Whisper模型生成的情感描述,该数据集正在推动多模态情感识别、语音合成中的情感迁移以及对话系统中情感理解等前沿方向的发展。随着215,600小时多语言数据的开放,研究者得以探索跨文化语境下的情感表达差异,这一特性在全球化人机交互场景中具有特殊价值。数据集标注的14种声学属性和40种情感类别,为构建更具解释性的情感计算模型奠定了基础,相关成果已开始应用于心理健康评估、智能客服等实际场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作