MSA-IR dataset, Twitter-15/17 dataset

github2022-12-17 更新2024-05-31 收录

下载链接：

https://github.com/code-chendl/HFIR

下载链接

链接失效反馈

官方服务：

资源简介：

MSA-IR数据集：为了保护版权，我们无法提供原始推文，而是提供了以pickle形式预处理的数据。Twitter-15/17数据集：我们提供文本数据和标注，图像数据需从链接下载。

MSA-IR Dataset: To protect copyright, we are unable to provide the original tweets. Instead, we offer preprocessed data in pickle format. Twitter-15/17 Dataset: We provide text data and annotations, while image data needs to be downloaded from the provided links.

创建时间：

2022-10-19

原始信息汇总

数据集概述

数据集名称

MSA-IR dataset
Twitter-15/17 dataset

数据集内容

MSA-IR dataset: 提供预处理后的数据，格式为pickles。由于版权保护，原始推文未提供。
Twitter-15/17 dataset: 提供文本数据和标注。图像数据需从指定链接下载。

数据集下载链接

MSA-IR dataset:
- 百度网盘：链接，密码：2022
- Google drive：链接
Twitter-15/17 dataset:
- 百度网盘：链接，密码：2022
- Google drive：链接，密码：2022

数据集标注说明

Txt_label: 文本描述的情感极性，标签为{-1, 0, 1}，分别代表负面、中性和正面。
Img_label: 视觉内容的情感极性，标签为{-1, 0, 1}。
Multi_label: 整个图文帖子的情感极性，标签为{-1, 0, 1}。
Cor_label: 图像与对应文本的信息相关性，标签为{y, n}，分别代表相关和不相关。

预训练模型和代码

DeepSentiBank: 用于提取中层视觉特征和形容词名词对(ANPs)，源码和预训练模型可从链接下载。
GloVe: 用于编码词向量的预训练模型(glove.twitter.27B.200d)，可从百度网盘和Google drive下载。

引用信息

若使用此代码或数据集，请引用以下文献：

@article{chen2023HFIR, title={Joint multimodal sentiment analysis based on information relevance}, author={Chen, Danlei and Su, Wang and Wu, Peng and Hua, Bolin}, journal={Information Processing & Management}, volume={60}, number={2}, pages={103193}, year={2023}, publisher={Elsevier}, doi={10.1016/j.ipm.2022.103193} }

搜集汇总

数据集介绍

构建方式

17数据集的构建基于多模态情感分析的研究需求，通过手动标注的方式对Twitter平台上的文本和图像数据进行情感极性和信息相关性的标注。数据集中的每一条推文均包含文本和图像，分别标注了文本情感、图像情感、多模态情感以及文本与图像的相关性。标注过程中，情感极性分为负面、中性和正面三类，相关性则分为相关和不相关两类。此外，数据集还采用了独热编码（one-hot encoding）对标签进行编码，以便于后续的机器学习模型处理。

特点

17数据集的特点在于其多模态性质，结合了文本和图像两种数据形式，能够全面反映推文的情感表达。数据集不仅提供了文本和图像的情感标签，还标注了文本与图像之间的相关性，这为研究多模态情感分析中的信息融合提供了重要依据。此外，数据集还包含了预处理的pickle文件，便于直接用于模型训练和测试。数据集的多样性和丰富性使其成为多模态情感分析领域的宝贵资源。

使用方法

使用17数据集时，首先需要从提供的百度网盘或Google Drive链接下载数据文件。数据集包含文本数据、图像数据以及相应的标注文件。对于图像数据，用户需从指定链接下载原始图像。数据预处理部分已通过pickle文件提供，用户可直接加载使用。在模型训练过程中，可以利用DeepSentiBank提取图像的中层特征和高层特征，并结合GloVe预训练模型对文本进行向量化处理。通过整合文本和图像的特征，用户可以构建多模态情感分析模型，并利用数据集中的标注信息进行模型训练和评估。

背景与挑战

背景概述

17数据集是由Danlei Chen等人于2023年提出的，旨在支持多模态情感分析的研究。该数据集的核心研究问题在于如何通过联合分析文本和图像信息来准确识别社交媒体帖子中的情感极性。数据集包含了Twitter-15和Twitter-17两个子集，分别提供了文本和图像数据，并附有手动标注的情感标签和信息相关性标签。该数据集的发布为多模态情感分析领域提供了重要的数据支持，推动了基于信息相关性的联合多模态情感分析方法的发展。

当前挑战

17数据集在构建和应用过程中面临多重挑战。首先，多模态情感分析本身具有复杂性，文本和图像的情感表达可能不一致，如何有效融合这两种模态的信息是一个关键问题。其次，数据集的构建过程中，手动标注的准确性和一致性难以保证，尤其是在处理大量社交媒体数据时，标注者的主观判断可能引入偏差。此外，数据集的预处理和特征提取也面临技术挑战，例如如何从图像中提取有效的情感特征，以及如何将文本和图像的特征进行有效融合。这些挑战不仅影响了数据集的构建质量，也对后续的研究提出了更高的技术要求。

常用场景

经典使用场景

在情感分析领域，17数据集被广泛应用于多模态情感分析的研究中。该数据集结合了文本和图像数据，通过手动标注的情感极性和信息相关性标签，为研究者提供了一个丰富的实验平台。经典的使用场景包括利用深度学习模型对文本和图像进行联合分析，以探索多模态数据在情感表达中的互补性和一致性。

实际应用

在实际应用中，17数据集被广泛用于社交媒体情感监测和用户行为分析。通过分析用户在社交媒体上发布的文本和图像内容，企业可以更准确地把握用户的情感倾向，从而优化产品设计和营销策略。此外，该数据集还可用于舆情监控，帮助政府和企业及时了解公众对特定事件或政策的情感反应。

衍生相关工作

基于17数据集，研究者们开发了多种多模态情感分析模型，如基于信息相关性的联合多模态情感分析模型（HFIR）。这些模型通过融合文本和图像的特征，显著提升了情感分析的性能。此外，该数据集还催生了一系列关于跨模态信息融合和情感表达一致性的研究，推动了多模态情感分析领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集