MET-Meme

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/liaolianfoka/MET-Meme-A-Multi-modal-Meme-Dataset-Rich-in-Metaphors

下载链接

链接失效反馈

官方服务：

资源简介：

MET-Meme是一个包含10039个文本-图像对的多模态表情包数据集，特别强调了隐喻的使用。数据集分为中文和英文两个部分，分别包含6045个中文图像和3994个英文图像。数据集还提供了详细的隐喻注释、情感分析、意图分类和冒犯性程度评估。

The MET-Meme dataset is a multimodal meme dataset comprising 10,039 text-image pairs, with a particular emphasis on the use of metaphors. The dataset is divided into two sections: Chinese and English, containing 6,045 Chinese images and 3,994 English images, respectively. Additionally, the dataset provides detailed annotations for metaphors, sentiment analysis, intent classification, and offensiveness assessment.

创建时间：

2022-02-16

原始信息汇总

MET-Meme 数据集概述

数据集基本信息

名称: MET-Meme
描述: 一个包含丰富隐喻的多模态表情包数据集，涵盖两种语言。
规模: 包含10039个文本-图像对，均带有手动标注。

数据集组成部分

中文图像: 包含在Cimages.rar中，共6045张图像。
英文图像: 包含在Eimages.rar中，共3994张图像。

数据集标注信息

隐喻标注

隐喻发生: 分为字面表情包(0)和隐喻表情包(1)。
隐喻类别: 互补型;文本主导型;图像主导型。
源域和目标域: 标注为"形容词 + 名词"或"动词 + 名词"结构。
源模态和目标模态: 互补型;文本主导型;图像主导型。

情感分析

情感类别: 幸福(1);爱(2);愤怒(3);悲伤(4);恐惧(5);厌恶(6);惊讶(7)。

意图类别

意图分类: 互动型(1);表达型(2);纯娱乐型(3);攻击型(4);其他(5)。

攻击性程度

攻击性等级: 无攻击性(0);轻微攻击性(1);中等攻击性(2);非常攻击性(3)。

代码与预处理

提供的代码: 可直接运行，但多语言Bert、vgg16和resnet50的预训练过程需用户自行完成。
超参数详情: 详见论文。

搜集汇总

数据集介绍

构建方式

MET-Meme数据集通过精心设计的多模态方法构建，涵盖了10039个文本-图像对，跨越中英两种语言。数据集的图像部分分为两个压缩文件，分别包含6045张中文图像和3994张英文图像。为了确保数据的高质量，数据集进行了多层次的手动标注，包括隐喻发生、隐喻类别、源域和目标域的结构化标注，以及源模态和目标模态的分类。此外，数据集还包含了情感分析、意图类别和冒犯程度的标注，以全面捕捉模因的多维度特征。

特点

MET-Meme数据集的显著特点在于其丰富的隐喻标注和多模态特性。数据集不仅区分了字面意义和隐喻意义的模因，还详细标注了隐喻的类别、源域和目标域，以及源模态和目标模态的关系。这种细致的标注使得数据集在隐喻理解和多模态分析领域具有极高的研究价值。此外，数据集还涵盖了情感分析、意图分类和冒犯程度的多维度标注，进一步增强了其在社会情感分析和内容理解方面的应用潜力。

使用方法

MET-Meme数据集的使用方法灵活多样，适用于多种自然语言处理和计算机视觉任务。用户可以通过提供的代码直接运行数据集，但需预先完成多语言Bert、vgg16和resnet50的预训练过程。数据集的详细超参数设置可在相关论文中找到。通过这些预训练模型，用户可以进行隐喻识别、情感分析、意图分类等多模态任务的研究。此外，数据集的标注信息为研究者提供了丰富的分析维度，有助于深入探索模因的多模态特性和社会文化影响。

背景与挑战

背景概述

MET-Meme数据集，作为多模态隐喻表情包的丰富资源，由相关领域的研究人员精心构建，旨在探索和分析隐喻在跨语言环境中的表现形式。该数据集涵盖了10039个文本-图像对，分别来自中文和英文，提供了详尽的手动标注，包括隐喻的发生、类别、源域和目标域的结构化标注，以及情感分析和意图分类等多维度信息。MET-Meme的创建不仅为隐喻研究提供了新的视角，也为多模态数据处理和跨语言情感分析等领域提供了宝贵的资源，推动了相关研究的发展。

当前挑战

MET-Meme数据集在构建过程中面临多项挑战。首先，隐喻的标注需要高度的语言和文化理解，确保标注的准确性和一致性。其次，跨语言的隐喻识别和分类增加了数据处理的复杂性，要求模型具备强大的语言理解和跨模态分析能力。此外，情感分析和意图分类的多样性和主观性也为数据集的构建和应用带来了挑战。最后，多语言预训练模型的应用和优化，如Bert、vgg16和resnet50，需要深入的技术研究和实验验证，以确保数据集的有效利用和推广。

常用场景

经典使用场景

MET-Meme数据集以其丰富的隐喻标注和多模态特性，成为研究多模态隐喻理解和情感分析的理想平台。该数据集的经典使用场景包括：通过分析文本和图像的互补性，研究隐喻在不同模态中的表现形式；利用多语言特性，探索跨语言隐喻的识别与理解；以及结合情感分析和意图分类，深入探讨社交媒体内容的多维度情感表达。

衍生相关工作

基于MET-Meme数据集，研究者们已开展了一系列相关工作，包括多模态隐喻识别模型的构建、跨语言隐喻理解的算法研究，以及情感分析和意图分类的深度学习模型开发。这些工作不仅推动了多模态语言理解领域的发展，也为社交媒体内容分析和情感计算提供了新的理论和方法支持。

数据集最近研究