EM²LDL

github2025-11-26 更新2025-12-03 收录

下载链接：

https://github.com/xingfengli/EM2LDL

下载链接

链接失效反馈

官方服务：

资源简介：

EM²LDL是一个新颖的多语言语音语料库，旨在通过标签分布学习推进混合情感识别。该语料库包含英语、普通话和粤语的情感表达话语，捕捉了香港和澳门等多语言地区常见的语码转换现象。它整合了来自在线平台的自发情感表达，并使用32个类别的细粒度情感分布进行标注。语料库共有3,998个音频话语，总时长约4.04小时，平均每个话语时长为3.64秒。每个话语都基于Plutchik情感轮由20名标注者标注，平均关联9.25个情感标签。

EM²LDL is a novel multilingual speech corpus dedicated to advancing mixed emotion recognition via label distribution learning. This corpus includes utterances conveying emotional expressions in English, Mandarin and Cantonese, capturing the prevalent code-switching phenomena in multilingual regions such as Hong Kong and Macao. It integrates spontaneous emotional expressions collected from online platforms, and is annotated with fine-grained emotion distributions spanning 32 categories. The corpus consists of 3,998 audio utterances in total, with an overall duration of approximately 4.04 hours and an average duration of 3.64 seconds per utterance. Each utterance was annotated by 20 annotators based on Plutchik's Wheel of Emotions, with an average of 9.25 associated emotion labels per utterance.

创建时间：

2025-11-25

原始信息汇总

EM²LDL 数据集概述

数据集简介

EM²LDL 是一个新颖的多语言语音语料库，旨在通过标签分布学习推进混合情感识别。该语料库解决了现有语料库主要为单语言、单标签，从而限制语言多样性、无法建模混合情感且缺乏生态效度的问题。

核心内容

语言构成：包含英语、普通话和粤语的情感表达话语，捕捉了香港和澳门等多语言地区普遍存在的语码转换现象。
语料来源：整合了来自在线平台的自发情感表达。
标注体系：采用基于 Plutchik 情感轮的 32 个情感类别，每个话语均标注有细粒度的情感概率分布。标注基于 20 名标注者的评估。
标注统计：每个话语平均关联 9.25 个情感标签（标准差：1.65），最多 16 个，最少 4 个，反映了混合情感状态的复杂性。

数据规模

话语总数：3,998 个音频话语。
总时长：14,540.08 秒（约 4.04 小时）。
平均时长：每个话语平均 3.64 秒。
语码转换对：包含粤语-英语 (CE)、普通话-英语 (ME) 和普通话-粤语 (MC) 三种语码转换对。

实验基准

使用自监督学习模型进行的实验基线表明，在独立于说话者的基于性别、年龄和人格的评估中表现稳健，其中 HuBERT-large-EN 模型取得了最佳结果。

应用价值

该语料库通过融入语言多样性和生态效度，为探索多语言环境下的复杂情感动态提供了可能，为开发用于情感计算（包括心理健康监测和跨文化交流）的自适应、共情系统提供了一个多功能测试平台。

获取方式

用户需下载用户许可协议 (LA.pdf)，填写完整后发送给 Dr. Xingfeng Li (xfli@cityu.edu.mo)。在签署的协议被接收并批准后，用户将收到下载数据库的说明。

引用

如需引用，请使用提供的引用信息：

@misc{li2025em2ldlmultilingualspeechcorpus, title={EM2LDL: A Multilingual Speech Corpus for Mixed Emotion Recognition through Label Distribution Learning}, author={Xingfeng Li and Xiaohan Shi and Junjie Li and Yongwei Li and Masashi Unoki and Tomoki Toda and Masato Akagi}, year={2025}, eprint={2511.20106}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.20106}, }

搜集汇总

数据集介绍

构建方式

在情感计算领域，构建能够反映真实世界复杂性的多语言情感语音数据集至关重要。EM²LDL语料库的构建过程注重生态效度与语言多样性，通过从在线平台采集英语、普通话和粤语的自发性情感表达语音片段，共计3,998条话语，总时长约4.04小时。每条话语均捕捉了香港、澳门等多语地区常见的语码转换现象，涉及粤英、普英和普粤三种语言对。标注工作基于普拉奇克情绪轮，由20名标注者对每条话语在32个情感类别上进行评估，最终生成概率分布形式的细粒度情感标签，平均每条话语关联9.25个情感标签，从而有效建模混合情感状态。

使用方法

研究者可通过签署用户许可协议获取EM²LDL语料库，随后将其应用于多语言混合情感识别模型的开发与评估。该数据集特别适合作为自监督学习模型的测试平台，例如HuBERT-large-EN等模型已在说话人无关的、基于性别、年龄和个性的评估中展现出优异性能。在实际应用中，该数据集可服务于心理健康监测、跨文化沟通等情感计算系统，助力开发更具适应性与共情能力的人机交互技术。其标签分布格式鼓励研究者采用回归或分布匹配等先进学习方法，以更细腻地捕捉和模拟人类情感的连续谱系。

背景与挑战

背景概述

在情感计算领域，传统语音情感数据集多局限于单一语言和离散情感标签，难以捕捉真实场景中复杂、混合的情感状态。为应对这一局限，EM²LDL数据集于2025年由李兴锋、石晓晗等研究人员联合推出，旨在通过标签分布学习推动多语言混合情感识别研究。该数据集聚焦英语、普通话和粤语三种语言，特别收录了香港、澳门等多语地区常见的语码转换现象，增强了数据的生态效度。其核心研究问题在于如何准确建模语音中同时存在的多种情感，为心理健康监测、跨文化通信等应用提供更自适应、共情的系统基础，对多语言情感计算领域产生了显著的推动作用。

当前挑战

EM²LDL数据集致力于解决混合情感识别这一前沿问题，其挑战在于如何精确量化语音中交织的多种情感强度，而非简单归类为单一标签。构建过程中，研究者面临多重困难：首先，需在多语言环境下收集具有生态效度的自发情感表达，涵盖语码转换等复杂语言现象；其次，标注过程涉及32类情感的概率分布，依赖20名标注者的共识，以确保标签的可靠性与细腻度；此外，数据集的规模与多样性平衡也是一项考验，需在有限样本内充分体现年龄、性别、个性等变量对情感表达的影响。这些挑战共同塑造了数据集的独特价值与复杂性。

常用场景

经典使用场景

在情感计算领域，EM²LDL数据集为混合情感识别研究提供了关键资源。该数据集通过标签分布学习，捕捉英语、普通话和粤语中自发的情感表达，尤其关注香港和澳门等多语地区常见的语码转换现象。其经典使用场景在于训练和评估自监督学习模型，如HuBERT-large-EN，以分析语音中复杂的混合情感状态，支持跨语言情感动态的探索，为多语环境下的情感建模奠定基础。

解决学术问题

EM²LDL数据集解决了情感计算中多个学术难题。传统单语和单标签情感语料库在语言多样性和生态效度上存在局限，无法有效建模混合情感。该数据集通过多语言语音样本和细粒度情感分布标注，突破了这些限制，使研究者能够深入探究情感在跨文化交际中的复杂性，为开发更具适应性和共情能力的系统提供了实证基础，推动了情感识别向更真实、多元场景的演进。

实际应用

在实际应用中，EM²LDL数据集支持心理健康监测和跨文化沟通等场景。通过分析多语言语音中的混合情感分布，该系统可集成到智能辅助工具中，实时评估用户情绪状态，为心理干预提供数据支持。在全球化背景下，该数据集有助于开发适应不同语言和文化背景的情感交互系统，提升人机交互的自然性和有效性，促进情感智能技术在医疗、教育等领域的落地。

数据集最近研究