EmotionTalk
收藏arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/NKU-HLT/EmotionTalk
下载链接
链接失效反馈官方服务:
资源简介:
EmotionTalk是一个包含丰富注释的交互式中文多模态情感数据集,由南开大学和北京人工智能研究院的学者共同创建。该数据集从19名演员参与的对话场景中收集了多模态信息,包括声音、视觉和文本模态。它包含了23.6小时的语音(19250个话语),并标注了7种话语级别的情感类别(快乐、惊讶、悲伤、厌恶、愤怒、恐惧和中性),5维情感标签(负面、弱负面、中性、弱正面和正面),以及4维语音字幕(说话者、说话风格、情感和整体)。该数据集非常适合单模态和多模态情感识别、缺失模态挑战和语音字幕任务的研究。据我们所知,它是第一个高质量的、多功能的中文对话多模态情感数据集,对跨文化情感分析和识别的研究是一个宝贵的贡献。此外,我们还在EmotionTalk上进行了实验,以证明数据集的有效性和质量。它将开源并免费提供给所有学术目的。
EmotionTalk is a richly annotated interactive Chinese multimodal emotion dataset jointly created by researchers from Nankai University and Beijing Institute of Artificial Intelligence. This dataset collects multimodal information including audio, visual and text modalities from conversational scenarios involving 19 actors. It contains 23.6 hours of speech (19250 utterances), annotated with 7 utterance-level emotion categories: joy, surprise, sadness, disgust, anger, fear and neutral, 5-dimensional emotion labels (negative, weakly negative, neutral, weakly positive and positive), and 4-dimensional speech subtitle annotations covering speaker, speaking style, emotion and overall context. This dataset is highly suitable for research on unimodal and multimodal emotion recognition, missing modality challenges and speech subtitle tasks. To the best of our knowledge, it is the first high-quality, versatile Chinese conversational multimodal emotion dataset, making a valuable contribution to cross-cultural emotion analysis and recognition research. Additionally, we conducted experiments on EmotionTalk to validate its effectiveness and quality. It will be open-sourced and freely available for all academic purposes.
提供机构:
南开大学, 北京人工智能研究院
创建时间:
2025-05-29
原始信息汇总
EmotionTalk 数据集概述
📖 数据集简介
- 名称:EmotionTalk
- 类型:交互式中文多模态情感数据集
- 特点:包含丰富的多模态标注信息
- 模态:声学、视觉和文本模态
- 数据规模:19位演员参与的二元对话场景,包含23.6小时语音(19,250条话语)
🏷 标注信息
- 情感类别:7种话语级情感标签(高兴、惊讶、悲伤、厌恶、愤怒、恐惧和中性)
- 情感维度:5维情感标签(负面、弱负面、中性、弱正面和正面)
- 语音描述:4维语音描述(说话者、说话风格、情感和整体描述)
🎯 适用任务
- 单模态和多模态情感识别
- 缺失模态挑战研究
- 语音描述任务
🌍 文化价值
- 首个高质量、多功能的中文对话多模态情感数据集
- 对跨文化情感分析和识别研究具有重要价值
🛠 使用准备
- 环境配置:使用提供的environment.yml文件创建conda环境
- 下载平台:数据集发布于Kaggle平台(具体链接见论文附录F)
- 工具依赖:需使用openface_win_x64工具(下载链接:https://drive.google.com/file/d/1-O8epcTDYCrRUU_mtXgjrS3OWA4HTp0-/view?usp=share_link)
📜 许可信息
- 开放源代码
- 免费用于所有学术用途
🙏 致谢
- 基于zeroQiaoba/MERTools仓库的前期工作
搜集汇总
数据集介绍

构建方式
EmotionTalk数据集的构建过程体现了高度的专业性与系统性。该数据集由19名专业演员在精心设计的对话场景中进行录制,确保了情感表达的自然性与真实性。研究人员首先通过大型语言模型生成或基于电视剧情改编创作对话脚本,涵盖友谊、家庭、职场等多个生活主题,并严格控制对话时长在2分钟左右以避免情感疲劳。在数据标注环节,采用五名标注者交叉验证的多步骤流程,对每个样本进行7种基本情感分类(快乐、惊讶、悲伤、厌恶、愤怒、恐惧和中性)以及5维情感强度标注。特别创新地引入了语音风格描述标注系统,包含说话者音质、语速语调等四个维度的细粒度描述,并通过大语言模型生成多样化的语义变体。
特点
作为首个具有细粒度标注的中文多模态情感对话数据集,EmotionTalk包含23.6小时的专业录制数据(19,250条话语),覆盖音频、视觉和文本三种模态。其显著特征包括:1)多维度标注体系,同时提供离散情感分类、连续情感强度和创新的语音风格描述;2)对话场景的真实性,通过双人互动设计捕捉情感动态变化;3)严格的质量控制,音频和视频模态的Fleiss's Kappa值分别达到0.79和0.78,显示标注者间高度一致性;4)任务多样性支持,可同时满足单模态情感识别、多模态融合、缺失模态处理以及语音描述生成等研究需求。
使用方法
该数据集支持多层次的研究应用:在单模态任务中,研究者可分别提取音频频谱特征(如使用HuBERT模型)、文本嵌入(如Baichuan-7B)或视觉特征(如CLIP-Large)进行基线模型训练;在多模态融合任务中,推荐采用LMF等 utterance-level 融合策略,实验表明最优组合(RoBERTa-Base+HuBERT-Large+Dinov2-Giant)在四分类任务中达到83.23%准确率;在语音描述生成任务中,Qwen-2解码器在BLEU4和BERTScore等指标上表现最佳。数据集按8:1:1比例划分训练/验证/测试集,并保持类别分布一致性,所有资源将通过GitHub开源供学术研究使用。
背景与挑战
背景概述
EmotionTalk是由南开大学与北京人工智能研究院联合研发的中文多模态情感数据集,于2025年5月通过arXiv平台首次公开。该数据集针对中文语境下情感计算研究的空白,通过专业演员模拟真实对话场景,收录23.6小时包含声学、视觉和文本模态的数据,标注7类离散情感标签、5维情感强度及4类语音风格描述。作为首个支持缺失模态研究和情感描述生成的中文对话数据集,其精细的跨模态标注体系为跨文化情感分析建立了新基准。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需解决中文复杂语调与微表情的跨模态对齐问题,以及文化特定情感表达的标注一致性难题;在技术实现层面,专业演员表演的自然度控制、多轮对话中情感动态变化的捕捉,以及19,250条语句的多维度标注质量控制构成主要障碍。实验表明,中性情感样本占比48.7%而恐惧类仅3.4%的分布失衡,对模型泛化能力提出严峻考验。
常用场景
经典使用场景
EmotionTalk数据集在情感计算领域具有广泛的应用价值,尤其在多模态情感识别任务中表现突出。该数据集通过整合语音、视觉和文本模态,为研究者提供了一个全面的情感分析平台。在对话情感识别任务中,EmotionTalk能够捕捉到情感在对话中的动态变化,为模型训练提供了丰富的上下文信息。此外,该数据集还支持缺失模态场景下的情感识别研究,为多模态融合算法提供了可靠的基准。
实际应用
在实际应用中,EmotionTalk数据集可广泛应用于人机交互、心理健康监测和情感分析等领域。例如,在虚拟助手中,该数据集可用于提升系统对用户情感状态的理解能力,从而实现更加自然和个性化的交互。在在线教育场景中,EmotionTalk可以帮助系统识别学习者的情感状态,优化教学策略。此外,该数据集还可用于开发情感驱动的推荐系统,提升用户体验。
衍生相关工作
EmotionTalk数据集已经衍生出多项经典研究工作。例如,基于该数据集的跨模态对齐和重构框架在缺失模态情感识别任务中取得了显著效果。此外,研究者还利用EmotionTalk开发了情感描述生成模型,能够自动生成丰富的情感风格描述。这些工作不仅验证了数据集的质量,还推动了多模态情感识别和情感描述生成领域的技术进步。未来,EmotionTalk有望在更多跨学科研究中发挥重要作用。
以上内容由遇见数据集搜集并总结生成



