five

MUStARD++|多模态讽刺检测数据集|自然语言处理数据集

收藏
arXiv2023-09-29 更新2024-06-21 收录
多模态讽刺检测
自然语言处理
下载链接:
https://bit.ly/3MVnZOj
下载链接
链接失效反馈
资源简介:
MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。
提供机构:
萨里大学
创建时间:
2023-09-29
AI搜集汇总
数据集介绍
main_image_url
构建方式
MUStARD++数据集的构建基于对多模态讽刺检测的需求,通过整合自然语言文本、语音特征(如语调和语调)以及视觉线索(如面部表情)来捕捉讽刺现象。该数据集在原有MUStARD数据集的基础上进行了扩展,增加了情感标注,并通过从电视剧《豪斯医生》中提取的新片段进一步丰富了数据多样性。这些新片段由多名标注者手动标注,确保了高度的标注一致性。
特点
MUStARD++数据集的显著特点在于其多模态性质,涵盖了文本、语音和视觉三种模态的信息,为讽刺检测提供了丰富的上下文。此外,数据集通过引入情感标注和平衡不同讽刺类型的样本,增强了模型的泛化能力和公平性。数据集的扩展版本MUStARD++ Balanced进一步解决了讽刺类型的不平衡问题,提升了数据集的质量和应用价值。
使用方法
使用MUStARD++数据集时,研究者可以利用其多模态特性,结合文本、语音和视觉信息进行讽刺检测模型的训练和评估。数据集支持多种模态的独立编码和融合,适用于多种多模态学习框架。通过对比不同模态组合的效果,研究者可以深入理解各模态在讽刺检测中的作用,并优化模型性能。此外,数据集的扩展版本MUStARD++ Balanced提供了更加平衡的讽刺类型分布,有助于构建更加鲁棒和公平的讽刺检测系统。
背景与挑战
背景概述
MUStARD++数据集由英国萨里大学和印度理工学院孟买分校的研究团队于近期推出,旨在解决多模态讽刺检测的核心问题。该数据集不仅包含了自然语言文本,还整合了语音(如语调和语调)和视觉线索(如面部表情),以全面捕捉讽刺的多模态表现。主要研究人员包括Swapnil Bhosale、Abhra Chaudhuri、Alex Lee等,他们的研究显著推动了多模态情感分析领域的发展,特别是在讽刺检测方面。通过引入MUStARD++,研究团队希望利用最先进的语言、语音和视觉编码器,充分挖掘数据集的多模态丰富性,从而提高讽刺检测的准确性。
当前挑战
MUStARD++数据集在构建和应用过程中面临多项挑战。首先,讽刺检测本身是一个复杂的多模态问题,涉及自然语言、语音和视觉信息的融合,这要求高效的模态间信息互补和整合。其次,数据集中‘讽刺类型’类别的失衡问题,可能导致模型对某些类型的讽刺产生偏见,影响下游系统的公平性。此外,多模态数据的标注过程复杂且耗时,需要标注者观看长视频并进行细致的情感和讽刺类型标注,这增加了数据获取的难度。最后,如何有效利用预训练模型和自监督学习方法,以提高多模态讽刺检测的性能,也是当前研究的重要挑战。
常用场景
经典使用场景
MUStARD++数据集的经典使用场景主要集中在多模态讽刺检测任务中。通过结合自然语言文本、语音特征和视觉线索,该数据集为研究人员提供了一个全面的平台,用于开发和评估能够识别讽刺表达的模型。这些模型不仅需要理解文本中的讽刺意味,还需捕捉语音语调和面部表情等非语言线索,以实现更准确的讽刺检测。
实际应用
在实际应用中,MUStARD++数据集可用于开发智能对话系统、社交媒体监控工具和情感分析软件。这些应用需要准确识别和理解讽刺表达,以避免误解用户意图或产生不当回应。通过利用多模态信息,这些系统能够更智能地处理包含讽刺的对话和内容,提升用户体验和系统性能。
衍生相关工作
基于MUStARD++数据集,研究者们开发了多种多模态讽刺检测模型,如使用ViFi-CLIP进行视频和文本编码,以及wav2vec 2.0进行音频处理。此外,该数据集还催生了针对讽刺类型不平衡问题的研究,如MUStARD++ Balanced扩展,通过引入新的标注数据来平衡不同讽刺类型的分布,进一步提升了模型的性能和公平性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录