five

MSA-IR dataset, Twitter-15/17 dataset|社交媒体分析数据集|图像处理数据集

收藏
github2022-12-17 更新2024-05-31 收录
社交媒体分析
图像处理
下载链接:
https://github.com/code-chendl/HFIR
下载链接
链接失效反馈
资源简介:
MSA-IR数据集:为了保护版权,我们无法提供原始推文,而是提供了以pickle形式预处理的数据。Twitter-15/17数据集:我们提供文本数据和标注,图像数据需从链接下载。

MSA-IR Dataset: To protect copyright, we are unable to provide the original tweets. Instead, we offer preprocessed data in pickle format. Twitter-15/17 Dataset: We provide text data and annotations, while image data needs to be downloaded from the provided links.
创建时间:
2022-10-19
原始信息汇总

数据集概述

数据集名称

  • MSA-IR dataset
  • Twitter-15/17 dataset

数据集内容

  • MSA-IR dataset: 提供预处理后的数据,格式为pickles。由于版权保护,原始推文未提供。
  • Twitter-15/17 dataset: 提供文本数据和标注。图像数据需从指定链接下载。

数据集下载链接

  • MSA-IR dataset:
    • 百度网盘:链接,密码:2022
    • Google drive:链接
  • Twitter-15/17 dataset:
    • 百度网盘:链接,密码:2022
    • Google drive:链接,密码:2022

数据集标注说明

  • Txt_label: 文本描述的情感极性,标签为{-1, 0, 1},分别代表负面、中性和正面。
  • Img_label: 视觉内容的情感极性,标签为{-1, 0, 1}。
  • Multi_label: 整个图文帖子的情感极性,标签为{-1, 0, 1}。
  • Cor_label: 图像与对应文本的信息相关性,标签为{y, n},分别代表相关和不相关。

预训练模型和代码

  • DeepSentiBank: 用于提取中层视觉特征和形容词名词对(ANPs),源码和预训练模型可从链接下载。
  • GloVe: 用于编码词向量的预训练模型(glove.twitter.27B.200d),可从百度网盘和Google drive下载。

引用信息

  • 若使用此代码或数据集,请引用以下文献:

    @article{chen2023HFIR, title={Joint multimodal sentiment analysis based on information relevance}, author={Chen, Danlei and Su, Wang and Wu, Peng and Hua, Bolin}, journal={Information Processing & Management}, volume={60}, number={2}, pages={103193}, year={2023}, publisher={Elsevier}, doi={10.1016/j.ipm.2022.103193} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
17数据集的构建基于多模态情感分析的研究需求,通过手动标注的方式对Twitter平台上的文本和图像数据进行情感极性和信息相关性的标注。数据集中的每一条推文均包含文本和图像,分别标注了文本情感、图像情感、多模态情感以及文本与图像的相关性。标注过程中,情感极性分为负面、中性和正面三类,相关性则分为相关和不相关两类。此外,数据集还采用了独热编码(one-hot encoding)对标签进行编码,以便于后续的机器学习模型处理。
特点
17数据集的特点在于其多模态性质,结合了文本和图像两种数据形式,能够全面反映推文的情感表达。数据集不仅提供了文本和图像的情感标签,还标注了文本与图像之间的相关性,这为研究多模态情感分析中的信息融合提供了重要依据。此外,数据集还包含了预处理的pickle文件,便于直接用于模型训练和测试。数据集的多样性和丰富性使其成为多模态情感分析领域的宝贵资源。
使用方法
使用17数据集时,首先需要从提供的百度网盘或Google Drive链接下载数据文件。数据集包含文本数据、图像数据以及相应的标注文件。对于图像数据,用户需从指定链接下载原始图像。数据预处理部分已通过pickle文件提供,用户可直接加载使用。在模型训练过程中,可以利用DeepSentiBank提取图像的中层特征和高层特征,并结合GloVe预训练模型对文本进行向量化处理。通过整合文本和图像的特征,用户可以构建多模态情感分析模型,并利用数据集中的标注信息进行模型训练和评估。
背景与挑战
背景概述
17数据集是由Danlei Chen等人于2023年提出的,旨在支持多模态情感分析的研究。该数据集的核心研究问题在于如何通过联合分析文本和图像信息来准确识别社交媒体帖子中的情感极性。数据集包含了Twitter-15和Twitter-17两个子集,分别提供了文本和图像数据,并附有手动标注的情感标签和信息相关性标签。该数据集的发布为多模态情感分析领域提供了重要的数据支持,推动了基于信息相关性的联合多模态情感分析方法的发展。
当前挑战
17数据集在构建和应用过程中面临多重挑战。首先,多模态情感分析本身具有复杂性,文本和图像的情感表达可能不一致,如何有效融合这两种模态的信息是一个关键问题。其次,数据集的构建过程中,手动标注的准确性和一致性难以保证,尤其是在处理大量社交媒体数据时,标注者的主观判断可能引入偏差。此外,数据集的预处理和特征提取也面临技术挑战,例如如何从图像中提取有效的情感特征,以及如何将文本和图像的特征进行有效融合。这些挑战不仅影响了数据集的构建质量,也对后续的研究提出了更高的技术要求。
常用场景
经典使用场景
在情感分析领域,17数据集被广泛应用于多模态情感分析的研究中。该数据集结合了文本和图像数据,通过手动标注的情感极性和信息相关性标签,为研究者提供了一个丰富的实验平台。经典的使用场景包括利用深度学习模型对文本和图像进行联合分析,以探索多模态数据在情感表达中的互补性和一致性。
实际应用
在实际应用中,17数据集被广泛用于社交媒体情感监测和用户行为分析。通过分析用户在社交媒体上发布的文本和图像内容,企业可以更准确地把握用户的情感倾向,从而优化产品设计和营销策略。此外,该数据集还可用于舆情监控,帮助政府和企业及时了解公众对特定事件或政策的情感反应。
衍生相关工作
基于17数据集,研究者们开发了多种多模态情感分析模型,如基于信息相关性的联合多模态情感分析模型(HFIR)。这些模型通过融合文本和图像的特征,显著提升了情感分析的性能。此外,该数据集还催生了一系列关于跨模态信息融合和情感表达一致性的研究,推动了多模态情感分析领域的快速发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

中国光伏电站空间分布ChinaPV数据集(2015,2020年)

该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。

国家地球系统科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录