MC-EIU

Name: MC-EIU
Creator: 内蒙古大学、中国科学院、华南理工大学、慕尼黑工业大学、香港中文大学（深圳）
Published: 2024-07-04 23:13:24
License: 暂无描述

arXiv2024-07-04 更新2024-07-05 收录

下载链接：

https://github.com/MC-EIU/MC-EIU

下载链接

链接失效反馈

官方服务：

资源简介：

MC-EIU数据集由内蒙古大学等机构创建，是一个全面的多模态对话情感和意图联合理解数据集。该数据集包含4,970个对话视频片段，总计56,012条数据，涵盖7种情感和9种意图，支持文本、声学和视觉三种模态，以及英语和普通话两种语言。数据集的创建过程包括数据收集、预处理和多轮标注，确保数据质量和多样性。MC-EIU数据集主要应用于人机交互领域，旨在通过理解和分析对话中的情感和意图，提升机器对人类需求的理解能力和对话系统的同理心。

The MC-EIU dataset was developed by Inner Mongolia University and other institutions, and it is a comprehensive multimodal dialogue dataset for joint emotion and intention understanding. This dataset includes 4,970 dialogue video clips, totaling 56,012 data instances, covering 7 emotion categories and 9 intention categories, and supports three modalities: text, acoustic and visual, as well as two languages: English and Mandarin. The creation process of the MC-EIU dataset involves data collection, preprocessing and multi-round annotation, which ensures the data quality and diversity. The MC-EIU dataset is mainly applied in the field of human-computer interaction, aiming to improve machines' ability to understand human needs and the empathy of dialogue systems by analyzing and comprehending emotions and intentions in dialogues.

提供机构：

内蒙古大学、中国科学院、华南理工大学、慕尼黑工业大学、香港中文大学（深圳）

创建时间：

2024-07-03

原始信息汇总

MC-EIU 数据集分析

数据集下载

百度云链接: 链接
提取码获取: 论文接受结果公布后，通过电子邮件联系作者获取。

数据集分析

数据可视化

图1: 情感与意图在MC-EIU数据集中的相关性可视化。每个圆圈代表特定“情感-意图”对的样本数量。较大的圆圈表示更多的样本和更高的相关性。

观察结果

情感与意图的关系: 情感和意图并非严格的一对一对应关系，不同的意图对特定情感的影响不同，反之亦然。
- 例如，“Hap-Sym”与“Hap-Agr”相比，后者出现频率更高，表明“Agreeing”更可能驱动“Happy”的表达。
数据集差异: 英语数据集中的情感与意图的相关性比普通话数据集更为复杂。
- 例如，“Sur”情感在英语数据集中与所有意图类别相关联，而在普通话数据集中仅与6个意图类别（“Que”, “Agr”, “Con”, “Sug”, “Wis”, 和 “Neu”）相关联。
模型性能: 由于这种复杂关系，模型在英语数据集上的表现相对低于普通话数据集。

搜集汇总

数据集介绍

构建方式

MC-EIU数据集的构建基于对多模态对话中情感和意图联合理解的需求。该数据集从3部英语和4部中文电视剧中收集了4,970个对话视频片段，涵盖了家庭、浪漫、犯罪等多种类型。数据集包括7种情感类别和9种意图类别，涵盖文本、声学和视觉三种模态，并提供英语和普通话两种语言的标注。数据集的构建过程包括数据收集、预处理、标注和最终验证，确保了数据的质量和多样性。

特点

MC-EIU数据集的主要特点在于其多模态、多语言和多标签的特性。它不仅包含了文本、声学和视觉三种模态的信息，还提供了英语和普通话两种语言的标注。此外，数据集的情感和意图标注具有高度的多样性和复杂性，能够支持情感和意图的联合理解任务。数据集的开放性和免费访问也为其广泛应用提供了便利。

使用方法

MC-EIU数据集适用于多模态对话中的情感和意图联合理解任务。用户可以通过访问数据集的GitHub仓库获取数据，并使用提供的标注信息进行模型训练和评估。数据集的多样性和复杂性使其适用于多种研究场景，包括情感识别、意图识别以及情感和意图的联合识别。用户可以根据需要选择不同的模态和语言进行实验，以验证和提升模型的性能。

背景与挑战

背景概述

MC-EIU数据集，全称为Multimodal Conversational Emotion and Intent Joint Understand dataset，由内蒙古大学、中国科学院、华南理工大学和慕尼黑工业大学的研究人员共同创建。该数据集旨在解决多模态对话中情感与意图联合理解的问题，涵盖了文本、声学和视觉三种模态，并支持英语和普通话两种语言。MC-EIU数据集的构建填补了现有数据集在标注多样性、模态多样性、语言多样性和可访问性方面的空白，为情感计算和人机交互领域的研究提供了宝贵的资源。

当前挑战

MC-EIU数据集面临的挑战主要包括两个方面：一是多模态上下文信息的建模，二是情感与意图之间交互关系的建模。现有的数据集在情感或意图标注上存在局限性，缺乏同时标注情感和意图的数据集，且在模态和语言多样性方面也存在不足。此外，数据集的构建过程中还面临着数据采集、预处理和标注的复杂性，以及数据集发布后的维护和更新问题。这些挑战需要通过创新的方法和技术来解决，以推动情感与意图联合理解研究的发展。

常用场景

经典使用场景

MC-EIU数据集最经典的使用场景在于多模态对话中的情感和意图联合理解。该数据集通过整合文本、音频和视觉三种模态的信息，同时标注了7种情感类别和9种意图类别，为研究者提供了一个全面且丰富的资源。这种多模态的联合理解任务在人机交互、客户服务对话系统以及心理健康咨询等领域具有广泛的应用前景。

衍生相关工作

MC-EIU数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者们开发了多种多模态情感和意图识别模型，如EI2网络，该模型通过建模对话历史和情感意图之间的深层交互，显著提升了识别性能。此外，还有研究探讨了如何利用预训练语言模型来进一步提升多模态对话中的情感和意图理解能力。这些工作不仅丰富了情感计算领域的研究内容，也为实际应用提供了技术支持。

数据集最近研究