MUStARD++

Name: MUStARD++
Creator: IBM 研究印度
Published: 2022-06-05 16:01:09
License: 暂无描述

arXiv2022-06-05 更新2024-06-21 收录

下载链接：

https://github.com/apoorva-nunna/MUStARD_Plus_Plus

下载链接

链接失效反馈

官方服务：

资源简介：

MUStARD++是一个专为情感识别中的讽刺检测而设计的多模态数据集，由IBM研究印度创建。该数据集包含601个视频，这些视频是从《老友记》和《生活大爆炸》等情景喜剧中精心挑选和标注的。数据集不仅标注了讽刺的存在与否，还包括情感、唤醒度和价态等详细信息。此外，每个视频还根据讽刺类型（如命题式、嵌入式、前置式和言外式）进行标注，旨在推动讽刺检测研究。MUStARD++的应用领域包括聊天机器人、电子商务和电子旅游等，旨在解决在人机交互中理解和响应用户情感的复杂问题。

MUStARD++ is a multimodal dataset specifically developed for sarcasm detection in emotion recognition, created by IBM Research India. It contains 601 videos carefully curated and annotated from sitcoms including *Friends* and *The Big Bang Theory*. Beyond annotating the presence or absence of sarcasm, the dataset also provides detailed annotations such as emotion, arousal, and valence. Additionally, each video is categorized and annotated by sarcasm types: propositional, embedded, presuppositional, and illocutionary sarcasm, aiming to advance research on sarcasm detection. Target application domains of MUStARD++ include chatbots, e-commerce, e-tourism and others, with the goal of addressing the complex challenge of understanding and responding to user emotions in human-computer interaction (HCI) scenarios.

提供机构：

IBM 研究印度

创建时间：

2022-06-05

搜集汇总

数据集介绍

构建方式

MUStARD++数据集是在MUStARD基础上扩展而来，旨在提升多模态讽刺检测的全面性。其构建过程首先从MUStARD包含的345个讽刺样本出发，新增256个来自《生活大爆炸》和《硅谷》等电视剧的讽刺视频片段，使讽刺与非讽刺样本总数达到1202个。随后，研究团队对每个样本进行了精细的情感标注，包括效价和唤醒度信息，并补充了讽刺类型标签，涵盖命题型、言外型、嵌入型和like前缀型。为缓解讽刺类型分布不均的问题，进一步从《豪斯医生》中选取164个新片段，经三位独立标注者手动标注，最终形成MUStARD++ Balanced版本，共计1365个样本，确保了数据在类型上的更均衡分布。

特点

该数据集的核心特点在于其多模态融合特性，集成了文本、语音和视觉三种模态的信息，以全面捕捉讽刺表达的复杂线索。文本部分包含对话上下文，语音特征涵盖音调、语调和韵律，视觉内容则聚焦于说话者的面部表情和肢体语言。此外，数据集引入了细粒度的情感维度（效价和唤醒度）以及四种讽刺类型分类，为模型训练提供了丰富的语义层次。MUStARD++ Balanced版本通过新增来自新来源的样本，显著缓解了原始数据中嵌入型和like前缀型讽刺样本不足的问题，增强了数据多样性和类别平衡性。

使用方法

使用该数据集时，研究者通常采用多模态编码器分别处理各模态信息：文本通过BART或ViFi-CLIP文本编码器提取特征，语音利用wav2vec 2.0模型（可进一步在语音情感识别任务上微调）获取声学表示，视频则借助ViFi-CLIP视频编码器捕捉视觉动态。这些特征随后通过协同门控注意力机制进行融合，输入分类器进行讽刺二分类或讽刺类型识别。建议采用五折交叉验证，并设置早停机制防止过拟合。对于MUStARD++ Balanced版本，可将其作为训练集和测试集的补充，以提升模型对各类讽刺的泛化能力。

背景与挑战

背景概述

MUStARD++数据集由英国萨里大学与印度理工学院孟买分校的研究团队于2022年联合创建，核心研究人员包括Swapnil Bhosale、Abhra Chaudhuri及Pushpak Bhattacharyya等。该数据集聚焦于多模态讽刺检测这一前沿课题，旨在通过整合文本、语音和视觉三种模态信息，突破传统单模态讽刺识别方法的局限。作为MUStARD数据集的扩展版本，MUStARD++不仅增加了标注样本数量，还引入了情感标注（如效价与唤醒度），为理解讽刺背后的情感机制提供了重要资源。其在多模态学习领域具有显著影响力，推动了讽刺检测从纯文本分析向视听融合的范式转变，并为后续研究提供了标准化基准。

当前挑战

该数据集面临的核心挑战包括：其一，讽刺作为一种多模态现象，其识别需同时解析语言文本中的语义矛盾、语音中的语调变化以及视觉上的面部表情，单一模态信息往往不足以准确判断，导致多模态融合模型的构建极为复杂。其二，数据集中‘讽刺类型’类别存在严重不平衡，如‘Like-Prefixed’类型样本极少，易使模型产生偏见，影响检测公平性。其三，构建过程中，多模态数据标注需人工观看长视频并判断讽刺类型，认知负荷大且耗时，导致标注成本高昂。此外，语音数据常混有背景笑声等噪声，与预训练模型所使用的干净语音存在域差异，进一步提升了特征提取与模型泛化的难度。

常用场景

经典使用场景

MUStARD++数据集作为多模态讽刺检测领域的标杆性资源，其核心应用场景在于推动融合文本、语音与视觉三种模态信息的讽刺识别研究。基于该数据集，研究者能够系统性地探索讽刺表达中语言内容、语调韵律及面部表情之间的协同关系。经典使用方式涉及从电视剧片段中提取多模态特征，并构建联合表征模型来判别话语是否具有讽刺意图。该数据集尤其适合评估不同模态编码器（如CLIP、wav2vec2）在讽刺检测任务上的性能，为多模态情感计算提供了标准化的实验平台。

衍生相关工作

围绕MUStARD++衍生出一系列经典工作，包括基于ViFi-CLIP的视频-文本联合编码方法、采用wav2vec2微调于语音情感识别任务的音频表征学习，以及融合BART与门控注意力机制的多模态架构。研究者进一步提出MUStARD++ Balanced扩展集，通过引入新数据点缓解讽刺类型失衡，并利用分布偏移实验验证了数据多样性对模型泛化能力的提升。这些工作共同推动了多模态讽刺检测从传统特征工程向自监督预训练范式的转型，启发了后续如多任务学习与跨模态对齐等研究方向。

数据集最近研究