Emilia-with-Emotion-Annotations
收藏数据集概述
数据集描述
- 该数据集是Emilia数据集的增强版本,增加了详细的情感注释。
- 注释使用EmoNet套件中的模型生成,旨在深入分析语音中的情感内容。
- 每个样本包含54个情感和副语言属性评分,以及由BUD-E Whisper模型生成的情感标题。
数据集结构与访问
- 数据集包含原始Emilia音频数据及新增的情感注释,以WebDataset格式提供。
- 数据集分布在五个Hugging Face仓库中:
laion/Emilia-with-Emotion-Annotationslaion/Emilia-with-Emotion-Annotations2laion/Emilia-with-Emotion-Annotations3laion/Emilia-with-Emotion-Annotations4laion/Emilia-with-Emotion-Annotations5
- 需从所有五个仓库中获取数据以访问完整数据集。
- 包含原始Emilia数据集的
.tar文件,YODAS子集的文件名中包含特定后缀。
数据集统计
-
总时长约215,600小时,合并了Emilia数据集和大部分YODAS数据集。
-
语言分布:
语言 Emilia时长(小时) Emilia-YODAS时长(小时) 总时长(小时) 英语 46.8k 92.2k 139.0k 中文 49.9k 0.3k 50.3k 德语 1.6k 5.6k 7.2k 法语 1.4k 7.4k 8.8k 日语 1.7k 1.1k 2.8k 韩语 0.2k 7.3k 7.5k 总计 101.7k 113.9k 215.6k
评分解释
-
包含40个情感类别和14个属性维度的原始评分及归一化Softmax概率。
-
属性范围及描述:
属性 范围 描述 Valence -3至+3 -3: 极端负面, +3: 极端正面, 0: 中性 Arousal 0至4 0: 非常平静, 4: 非常兴奋, 2: 中性 Dominance -3至+3 -3: 极端顺从, +3: 极端主导, 0: 中性 Age 0至6 0: 婴儿/幼儿, 2: 青少年, 4: 成人, 6: 非常年老 Gender -2至+2 -2: 非常男性化, +2: 非常女性化, 0: 中性/不确定 Humor 0至4 0: 非常严肃, 4: 非常幽默, 2: 中性 Detachment 0至4 0: 非常脆弱, 4: 非常超然, 2: 中性 Confidence 0至4 0: 非常自信, 4: 非常犹豫, 2: 中性 Warmth -2至+2 -2: 非常冷漠, +2: 非常热情, 0: 中性 Expressiveness 0至4 0: 非常单调, 4: 非常富有表现力, 2: 中性 Pitch 0至4 0: 非常高音, 4: 非常低音, 2: 中性 Softness -2至+2 -2: 非常刺耳, +2: 非常柔和, 0: 中性 Authenticity 0至4 0: 非常虚假, 4: 非常真实, 2: 中性 Recording Quality 0至4 0: 非常低, 4: 非常高, 2: 尚可 Background Noise 0至3 0: 无噪音, 3: 强烈噪音
引用
bibtex @inproceedings{emilialarge, author={He, Haorui and Shang, Zengqiang and Wang, Chaoren and Li, Xuyuan and Gu, Yicheng and Hua, Hua and Liu, Liwei and Yang, Chen and Li, Jiaqi and Shi, Peiyang and Wang, Yuancheng and Chen, Kai and Zhang, Pengyuan and Wu, Zhizheng}, title={Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation}, booktitle={arXiv:2501.15907}, year={2025} }
@article{emonet_voice_2025, author={Schuhmann, Christoph and Kaczmarczyk, Robert and Rabby, Gollam and Friedrich, Felix and Kraus, Maurice and Nadi, Kourosh and Nguyen, Huu and Kersting, Kristian and Auer, Sören}, title={EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection}, journal={arXiv preprint arXiv:2506.09827}, year={2025} }




