MIntRec
收藏arXiv2022-09-09 更新2024-06-21 收录
下载链接:
https://github.com/thuiar/MIntRec
下载链接
链接失效反馈官方服务:
资源简介:
MIntRec数据集由清华大学智能技术与系统国家重点实验室开发,专注于多模态意图识别,包含2224个高质量样本,涵盖文本、视频和音频三种模态。数据集内容丰富,源自电视剧《超级商店》,通过精细的意图分类体系,包括2个粗粒度和20个细粒度意图类别,支持深入研究。创建过程中,研究团队采用了自动化的说话人标注流程,提高了标注效率和准确性。该数据集适用于提升意图识别的准确性和理解复杂人类意图的研究,特别是在多模态场景下的应用。
The MIntRec dataset, developed by the State Key Laboratory of Intelligent Technology and Systems at Tsinghua University, focuses on multimodal intent recognition. It includes 2,224 high-quality samples covering three modalities: text, video, and audio. Derived from the TV series *Superstore*, the dataset features a sophisticated intent classification taxonomy comprising 2 coarse-grained and 20 fine-grained intent categories, enabling in-depth research. During its development, the research team adopted an automated speaker annotation workflow to improve annotation efficiency and accuracy. This dataset is applicable to research aiming to enhance the accuracy of intent recognition and understand complex human intentions, especially for applications in multimodal scenarios.
提供机构:
清华大学智能技术与系统国家重点实验室
创建时间:
2022-09-09
搜集汇总
数据集介绍

构建方式
MIntRec数据集的构建过程基于电视剧《Superstore》的多模态数据,包括文本、视频和音频。首先,从原始视频和字幕中提取每个说话者的起始和结束时间戳,并据此分割视频片段。接着,设计了两层意图分类体系:粗粒度分类(表达情感或态度、实现目标)和细粒度分类(20个具体意图类别)。通过五名经过培训的标注员对每个样本进行多模态意图标注,最终通过多数投票确定标签。此外,还开发了自动说话者标注流程,利用目标检测和面部跟踪技术生成高质量的说话者边界框。
特点
MIntRec数据集包含2,224个高质量样本,涵盖文本、视频和音频三种模态,并标注了20种意图类别。其独特之处在于提供了多模态意图标注和自动生成的说话者边界框,能够有效支持多模态意图识别的研究。数据集中的意图分类体系设计合理,既包含粗粒度的情感表达和目标实现,又细分为20个具体的意图类别,能够反映真实场景中的复杂意图。此外,数据集的样本分布符合现实场景中的意图频率,确保了研究的实用性和广泛性。
使用方法
MIntRec数据集的使用方法主要包括多模态特征提取和多模态融合。首先,使用预训练的BERT模型提取文本特征,Faster R-CNN提取视觉特征,wav2vec 2.0提取音频特征。接着,采用三种多模态融合方法(MulT、MISA、MAG-BERT)建模跨模态交互,生成多模态表示。实验表明,结合非语言模态(视频和音频)能够显著提升意图识别的性能。数据集可用于多模态意图识别的基准测试,支持研究者探索不同模态之间的关系,并开发更高效的多模态融合算法。
背景与挑战
背景概述
MIntRec数据集由清华大学智能技术与系统国家重点实验室的研究团队于2022年提出,旨在解决多模态意图识别领域的关键问题。该数据集基于电视剧《Superstore》的对话场景,包含2,224个高质量样本,涵盖文本、视频和音频三种模态,并标注了20种意图类别。MIntRec的提出填补了多模态意图识别领域的数据空白,为研究者提供了丰富的多模态信息,以探索不同模态之间的关系,进而提升意图识别的能力。该数据集不仅推动了多模态语言理解的研究,还为情感分析、幽默检测等相关领域提供了新的研究视角。
当前挑战
MIntRec数据集在构建和应用过程中面临多重挑战。首先,多模态意图识别任务本身具有复杂性,尤其是在真实场景中,人类的意图往往通过多种模态(如语音、表情、肢体动作)共同表达,单一模态难以全面捕捉这些信息。其次,数据集的构建过程中,研究者需要设计适用于多模态场景的意图分类体系,并解决多人在场时说话者识别的难题。此外,自动化的说话者标注过程虽然提高了效率,但在复杂场景中仍可能面临视觉信息缺失或多人干扰的问题。尽管多模态融合方法在实验中表现出优于单一模态的性能,但与人类的表现相比仍有较大差距,表明多模态意图识别任务仍具有较高的研究难度。
常用场景
经典使用场景
MIntRec数据集在自然语言理解(NLU)领域中被广泛用于多模态意图识别任务。通过结合文本、视频和音频信息,研究者能够更全面地分析人类在真实场景中的意图表达。该数据集特别适用于研究多模态融合方法,帮助模型从不同模态中提取互补信息,从而提升意图识别的准确性。
实际应用
在实际应用中,MIntRec数据集可用于开发智能对话系统、情感分析工具以及人机交互系统。通过结合多模态信息,这些系统能够更准确地理解用户的意图,从而提供更加个性化和自然的交互体验。例如,在客服机器人中,系统可以通过分析用户的语音语调和面部表情,判断其情绪状态并做出相应的回应。
衍生相关工作
MIntRec数据集的发布推动了多模态意图识别领域的研究进展。基于该数据集,研究者提出了多种多模态融合方法,如MulT、MISA和MAG-BERT等。这些方法通过建模不同模态之间的交互关系,显著提升了意图识别的性能。此外,MIntRec还为其他多模态任务(如情感分析和幽默检测)提供了新的研究思路和基准。
以上内容由遇见数据集搜集并总结生成



