Memotion 3

Name: Memotion 3
Creator: 印度信息技术学院斯里市分校
Published: 2023-10-02 22:28:03
License: 暂无描述

arXiv2023-10-02 更新2024-06-21 收录

下载链接：

https://github.com/Shreyashm16/Memotion-3.0

下载链接

链接失效反馈

官方服务：

资源简介：

Memotion 3是由印度信息技术学院斯里市分校创建的一个包含10,000条Hindi-English混合语言的meme数据集。该数据集通过从Reddit和Google Images等公共网站收集meme，并使用Google Vision API进行OCR处理。数据集内容包括meme的图像和文本，旨在进行情感和情绪分析，包括分类为积极、中性或消极，以及幽默、讽刺、冒犯或激励等情绪类别。创建过程涉及使用Selenium-based web crawler进行数据收集，并通过多数投票系统进行标注。该数据集主要用于机器学习和多模态数据分析，特别是在社交媒体内容监控和情感分析领域，以解决网络仇恨和虚假信息的传播问题。

Memotion 3 is a 10,000-sample Hindi-English code-switched meme dataset developed by the International Institute of Information Technology, Sri City Campus, India. This dataset is constructed by collecting memes from public platforms including Reddit and Google Images, followed by OCR processing using the Google Vision API. The dataset includes both meme images and their associated text, and is designed for sentiment and emotion analysis tasks, with classification labels covering positive, neutral, and negative sentiments, as well as emotional categories such as humorous, satirical, offensive, and motivational. The dataset creation process involved using a Selenium-based web crawler for data collection and a majority voting system for annotation. It is primarily applied in machine learning and multimodal data analysis research, particularly in the fields of social media content moderation and sentiment analysis, to address the spread of online hate speech and disinformation.

提供机构：

印度信息技术学院斯里市分校

创建时间：

2023-03-17

搜集汇总

数据集介绍

构建方式

Memotion 3 数据集通过从社交媒体网站如 Reddit、Facebook、Imgur 和 Instagram 等平台下载与政治、体育等主题相关的表情包，并使用基于 Selenium 的网络爬虫收集表情包来构建。数据集包括 10,000 个表情包，每个表情包都经过人工标注，包括情感、情绪及其强度等信息。数据集被分为训练集、验证集和测试集，分别包含 8500、1500 和 1500 个表情包。为了处理表情包中的 Hindi-English 混合语言内容，数据集使用了 Hinglish-BERT 模型进行文本特征提取，并使用 Vision Transformer 模型提取视觉特征。最后，将文本和视觉特征结合，并通过多层感知器 (MLP) 进行分类。

使用方法

Memotion 3 数据集可用于情感分析、情绪分类和情绪强度评估等任务。使用该数据集进行模型训练和评估的步骤如下：1) 下载并解压数据集文件；2) 使用 Hinglish-BERT 模型提取文本特征，并使用 Vision Transformer 模型提取视觉特征；3) 将文本和视觉特征结合，并通过多层感知器 (MLP) 进行分类；4) 使用训练集训练模型，并使用验证集调整模型参数；5) 使用测试集评估模型性能。

背景与挑战

背景概述

在社交媒体平台上，表情包已成为一种流行的幽默表达方式。然而，表情包也可能被用来传播虚假信息或仇恨，因此对其进行深入分析至关重要。Memotion 3数据集应运而生，它是一个包含10,000个带注释的表情包的新数据集。与其他流行的数据集相比，Memotion 3引入了印地语-英语混合表情包，而之前的研究主要集中在英语表情包上。Memotion 3数据集由印度国际信息技术学院、美国加州大学洛杉矶分校、南卡罗来纳大学、卡内基梅隆大学、斯坦福大学、亚马逊人工智能、微软、印度理工学院帕特纳分校和乔治亚理工学院的研究人员共同创建。该数据集旨在解决表情包中的情感和情感分析问题，并促进相关领域的研究。Memotion 3数据集的创建不仅丰富了表情包研究领域的数据资源，也为表情包的情感和情感分析提供了新的研究方向。

当前挑战

Memotion 3数据集面临着一些挑战。首先，表情包可能具有多模态特性，即包含文本和图像信息，这使得对其进行分析变得更加复杂。其次，表情包可能不使用明确的仇恨内容或词汇，而是采用更微妙的攻击形式，如讽刺或讽刺，这使得对其进行分类更具挑战性。此外，表情包可能包含代码混合内容，例如印地语、泰卢固语等用拉丁脚本编写的语言，这使得对其进行解析和检测更加困难。最后，由于表情包的持续演变和当代仇恨分类系统的滞后性，对其进行实时监测和识别也面临着挑战。尽管存在这些挑战，Memotion 3数据集为表情包的情感和情感分析提供了宝贵的数据资源，并有望推动相关领域的研究进展。

常用场景

经典使用场景

Memotion 3 数据集的经典使用场景包括对社交平台上混杂着印地语和英语的迷因进行情感和情绪分析。通过这一数据集，研究者可以对迷因的内容进行深入分析，了解其情感倾向、情绪类型以及情绪强度。此外，该数据集还可以用于构建和评估情感分析模型，以提高模型的准确性和鲁棒性。

解决学术问题

Memotion 3 数据集解决了情感分析领域中的一个重要问题，即如何对多语言和混杂语言的文本进行情感分析。该数据集提供了大量印地语和英语混杂的迷因数据，使得研究者可以更好地理解和处理这种复杂的文本类型。此外，该数据集还可以用于研究迷因中的情感和情绪如何影响人们的观点和行为，以及如何利用情感分析技术来检测和防止网络仇恨言论和虚假信息的传播。

实际应用

Memotion 3 数据集在实际应用中具有广泛的应用前景。例如，社交媒体平台可以利用该数据集来构建和评估情感分析模型，以更好地理解和响应用户的情感需求。此外，该数据集还可以用于研究迷因中的情感和情绪如何影响人们的观点和行为，以及如何利用情感分析技术来检测和防止网络仇恨言论和虚假信息的传播。因此，Memotion 3 数据集为情感分析领域的研究和应用提供了重要的数据支持。

数据集最近研究