MC-EIU

github2024-11-22 更新2024-12-06 收录

下载链接：

https://github.com/AI-S2-Lab/MC-EIU-main

下载链接

链接失效反馈

官方服务：

资源简介：

MC-EIU数据集是一个用于多模态对话中情感和意图联合理解的综合性数据集。它包含了英语和普通话两种语言的对话数据，涵盖了对话的时长、平均话语长度、每段对话的话语数、每段对话的情感数和意图数等统计信息。

MC-EIU dataset is a comprehensive dataset for joint sentiment and intention understanding in multimodal conversations. It contains conversational data in both English and Mandarin, covering statistical information such as conversation duration, average utterance length, the number of utterances per conversation, and the number of sentiments and intentions per conversation.

创建时间：

2024-11-13

原始信息汇总

MC-EIU 数据集概述

简介

MC-EIU 数据集是用于多模态对话中情感和意图联合理解的基准数据集。详细信息可参见论文：Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset。

数据集概览

数据集统计信息如下：

统计项	英语			普通话
	训练集	验证集	测试集	训练集	验证集	测试集
# 对话数	2,807	400	806	667	95	195
# 话语数	31,451	4,509	9,049	7,643	1,148	2,212
# 时长 (小时)	28.51	4.02	8.22	8.51	1.36	2.42
平均话语长度 (UL)	12.68	12.49	12.76	19.11	19.91	18.14
平均话语时长 (DU, 秒)	3.26	3.21	3.27	4.01	4.26	3.94
平均每对话话语数 (UC)	11.20	11.27	11.23	11.46	12.08	11.34
平均每对话情感数 (EC)	2.58	2.57	2.60	2.41	2.54	2.42
平均每对话意图数 (IC)	3.29	3.86	3.87	3.18	3.24	3.10

下载

MC-EIU 数据集的 Hugging Face 链接为：https://huggingface.co/datasets/YulangZhuo/MC-EIU/tree/main。

引用

如需引用该数据集，请使用以下格式：

@article{liu2024emotion, title={Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset}, author={Liu, Rui and Zuo, Haolin and Lian, Zheng and Xing, Xiaofen and Schuller, Bj{"o}rn W and Li, Haizhou}, journal={arXiv preprint arXiv:2407.02751}, year={2024} }

使用

训练 MC-EIU

首先使用所有声学、视觉和文本模态预训练编码器。以普通话数据集为例： bash bash scripts/our/pretrain_Mandarin.sh AVL [num_of_expr] [GPU_index]
然后训练 MC-EIU 模型： bash bash scripts/our/our_Mandarin.sh [num_of_expr] [GPU_index]

其中 [num_of_expr] 表示自定义的训练次数，[GPU_index] 表示要使用的 GPU 索引。

许可证

该数据集采用 CC BY-NC 4.0 许可证。

搜集汇总

数据集介绍

构建方式

MC-EIU数据集的构建基于多模态对话系统，涵盖了情感与意图的联合理解。该数据集通过从公开的电视节目片段中提取对话内容，结合语音、视觉和文本三种模态信息，构建了丰富的多模态对话数据。数据集的划分包括训练集、验证集和测试集，分别用于模型训练、验证和性能评估。每个对话样本均标注了情感和意图信息，确保了数据的高质量和多样性。

特点

MC-EIU数据集的显著特点在于其多模态性和情感与意图的联合标注。数据集不仅包含了对话的文本信息，还整合了语音和视觉模态，提供了更为全面和深入的对话理解基础。此外，数据集的情感和意图标注精细，涵盖了多种情感和意图类别，为研究者提供了丰富的实验资源。数据集的统计特性显示，对话的平均长度、持续时间和情感与意图的平均数量均表现出良好的平衡性。

使用方法

使用MC-EIU数据集进行模型训练时，首先需通过预训练编码器处理所有模态的数据，包括语音、视觉和文本。以普通话数据集为例，可以通过运行脚本`pretrain_Mandarin.sh`进行预训练。随后，使用`our_Mandarin.sh`脚本进行MC-EIU模型的训练。用户可以根据需要调整训练参数，具体参数设置可参考`options/get_opt.py`文件中的定义。数据集的下载可通过Hugging Face平台进行，确保数据的完整性和可用性。

背景与挑战

背景概述

MC-EIU数据集是由Rui Liu、Haolin Zuo等研究人员于2024年创建的，旨在解决多模态对话中情感与意图联合理解的核心研究问题。该数据集通过整合声学、视觉和文本等多模态信息，为情感和意图的联合分析提供了丰富的资源。其主要贡献在于为多模态对话系统的研究提供了标准化的基准，推动了相关领域的发展。

当前挑战

MC-EIU数据集在构建过程中面临多重挑战。首先，多模态数据的整合与同步要求高精度的技术支持，以确保各模态信息的一致性。其次，情感与意图的联合理解涉及复杂的语义分析，需要先进的自然语言处理和机器学习技术。此外，数据集的规模和多样性也带来了数据标注和处理的挑战，确保标注的准确性和一致性是关键。

常用场景

经典使用场景

在多模态对话系统中，MC-EIU数据集被广泛用于情感与意图的联合理解任务。该数据集通过整合语音、视觉和文本等多模态信息，为模型提供了丰富的上下文环境，从而能够更准确地识别对话中的情感和意图。这一经典应用场景在自然语言处理和情感计算领域具有重要意义，为研究人员提供了一个标准化的基准，以评估和比较不同模型的性能。

解决学术问题

MC-EIU数据集解决了多模态对话系统中情感与意图联合理解的关键学术问题。传统的情感分析和意图识别通常依赖单一模态数据，而MC-EIU通过融合多模态信息，显著提升了情感和意图识别的准确性。这一突破不仅推动了情感计算和自然语言处理领域的发展，还为多模态数据融合提供了新的研究方向，具有深远的学术影响。

衍生相关工作

基于MC-EIU数据集，研究人员开发了多种多模态情感与意图识别模型，推动了相关领域的技术进步。例如，一些研究工作提出了新的多模态融合算法，以提高情感和意图识别的准确性。此外，MC-EIU还激发了关于多模态数据预处理和特征提取的研究，为多模态对话系统的优化提供了理论基础。这些衍生工作不仅丰富了多模态对话系统的研究内容，还为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集