Emotiontalk

Name: Emotiontalk
Creator: Beijing Academy of Artificial Intelligence
Published: 2025-07-28 13:24:46
License: 暂无描述

Hugging Face2025-07-28 更新2025-07-29 收录

下载链接：

https://huggingface.co/datasets/BAAI/Emotiontalk

下载链接

链接失效反馈

官方服务：

资源简介：

EmotionTalk是一个互动式的中文多模态情感数据集，包含丰富的标注信息。该数据集从19位参与者在对话环境中的互动中收集了声学、视觉和文本三种模态的信息，共计23.6小时的语音（19,250个发言），包括7种情感类别的标注（快乐、惊讶、悲伤、厌恶、愤怒、恐惧和中立），5维情感标签（负面、微负面、中立、微正面和正面），以及4维语音字幕（说话者、说话风格、情感和总体）。数据集以CC BY-NC-SA 4.0许可证发布，可用于非商业用途。

EmotionTalk is an interactive Chinese multimodal emotion dataset with rich annotated information. This dataset collects acoustic, visual and textual multimodal data from the interactions of 19 participants in conversational scenarios, totaling 23.6 hours of speech (19,250 utterances). It includes annotations for 7 emotion categories (happiness, surprise, sadness, disgust, anger, fear and neutral), 5-dimensional emotion labels (negative, slightly negative, neutral, slightly positive and positive), as well as 4-dimensional speech subtitles covering speaker, speaking style, emotion and overall. The dataset is released under the CC BY-NC-SA 4.0 license and is available for non-commercial use.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2025-07-28

原始信息汇总

EmotionTalk: 交互式中文多模态情感数据集

数据集概述

名称: EmotionTalk
语言: 中文 (zh)
许可证: CC BY-NC-SA 4.0 (非商业用途)
数据量: 10K<n<100K
模态: 多模态 (声学、视觉、文本)
时长: 23.6小时语音 (19,250条话语)

关键特性

参与者: 19名演员参与双向对话设置
情感标注:
- 7种话语级情感类别: 高兴、惊讶、悲伤、厌恶、愤怒、恐惧、中性
- 5维情感标签: 负面、弱负面、中性、弱正面、正面
- 4维语音描述: 说话者、说话风格、情感、整体
数据格式:
- 音频: WAV格式 (44.1kHz采样率)
- 文本: 转录内容
- 视频: 视觉数据

数据结构

data ├── audio/.tar
├── Text/.tar
├── Video/.tar
└── Multimodal/.tar

数据集统计

子集	愤怒	厌恶	恐惧	高兴	中性	悲伤	惊讶	总计
训练集	2950	1142	672	2986	5377	919	1367	15413
验证集	409	95	125	360	675	111	133	1908
测试集	339	134	125	246	801	123	161	1929
总计	3698	1371	922	3592	6853	1153	1661	19250

引用信息

bibtex @article{sun2025emotiontalk, title={EmotionTalk: An Interactive Chinese Multimodal Emotion Dataset With Rich Annotations}, author={Sun, Haoqin and Wang, Xuechen and Zhao, Jinghua and Zhao, Shiwan and Zhou, Jiaming and Wang, Hui and He, Jiabei and Kong, Aobo and Yang, Xi and Wang, Yequan and others}, journal={arXiv preprint arXiv:2505.23018}, year={2025} }

相关链接

搜集汇总

数据集介绍

构建方式

EmotionTalk数据集通过19位演员的双人对话场景构建，采集了丰富的多模态情感数据。研究团队精心设计了实验环境，确保对话内容自然流畅，同时涵盖广泛的情感表达。数据采集过程涵盖了语音、视觉和文本三种模态，共获得23.6小时的语音数据（19,250条话语），每条话语都经过专业标注。标注内容包括7种话语级情感类别、5维情感标签和4维语音描述，确保了数据的全面性和准确性。

特点

该数据集最显著的特点是其多模态性和精细的标注体系。不仅包含传统的语音和文本数据，还整合了视觉信息，为情感计算研究提供了多维度的分析基础。数据集涵盖了7种基本情感类别，并创新性地引入了连续情感维度标注，能够更精确地捕捉情感的细微变化。此外，数据集还提供了说话人身份、说话风格等辅助信息，为个性化情感分析创造了条件。数据规模适中，包含19,250条标注样本，在保证数据质量的同时满足了深度学习模型的训练需求。

使用方法

使用EmotionTalk数据集时，研究者可根据需求选择单一模态或融合多模态数据进行情感分析实验。数据集已按标准划分为训练集、验证集和测试集，便于模型开发和评估。对于音频模态，可采用44.1kHz采样率的WAV文件进行声学特征提取；文本模态包含原始转录内容，适合自然语言处理任务；视频模态则可用于面部表情和肢体语言分析。多模态融合研究可结合三种模态的特征，探索更全面的情感识别方法。数据集采用CC BY-NC-SA 4.0许可协议，使用时需遵守相关条款。

背景与挑战

背景概述

EmotionTalk数据集由北京智源人工智能研究院（BAAI）于2025年推出的中文多模态情感计算基准数据集，旨在推进人机交互领域的情感识别研究。该数据集收录19位演员在对话场景中产生的23.6小时多模态数据，涵盖语音、文本和视觉三种模态，并标注七种离散情感类别、五维情感极性及四种语音描述特征。作为首个融合连续情感维度标注的中文多模态数据集，其创新性的对话情境设计和细粒度标注体系为情感计算、多模态融合等研究方向提供了重要实验平台。

当前挑战

在解决多模态情感识别核心问题时，该数据集面临三大挑战：跨模态特征对齐的复杂性要求精确的时间戳标注与同步技术，细粒度情感标注中标注者主观差异导致标签一致性控制困难，以及中文语境下文化特定情感表达的捕捉难题。数据集构建过程中，多源数据采集的设备同步性控制、海量标注数据的质量校验、以及隐私保护与数据开放的平衡等问题，均对研究团队提出了严峻考验。

常用场景

经典使用场景

EmotionTalk数据集在情感计算领域具有广泛的应用价值，尤其在多模态情感识别研究中表现突出。该数据集通过整合音频、视觉和文本三种模态信息，为研究者提供了一个全面的情感分析平台。其经典使用场景包括基于深度学习的多模态情感分类模型训练与评估，研究者可以利用该数据集构建端到端的情感识别系统，探索不同模态之间的互补性与融合策略。

实际应用

在实际应用层面，EmotionTalk数据集为智能客服、情感陪伴机器人等对话系统的开发提供了重要支持。基于该数据集训练的模型可以更准确地识别用户情感状态，实现更具同理心的人机交互。此外，在心理健康监测领域，该数据集也有助于开发情感状态自动评估工具，为早期心理问题筛查提供技术支持。

衍生相关工作

EmotionTalk数据集已催生多项重要研究工作，包括多模态特征融合算法、跨模态情感一致性分析以及对话情感动态建模等方向。部分研究团队基于该数据集提出了新型的注意力机制和时序建模方法，显著提升了多模态情感识别的性能。这些工作不仅推动了情感计算领域的发展，也为相关应用场景提供了更强大的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集