Twitter-2015 和 Twitter-2017|社交媒体情感分析数据集|多模态信息处理数据集

arXiv2024-11-23 更新2024-11-27 收录

社交媒体情感分析

多模态信息处理

下载链接：

http://arxiv.org/abs/2411.15408v1

下载链接

链接失效反馈

资源简介：

Twitter-2015 和 Twitter-2017 是由Zhang et al. [37]提供的多模态命名实体识别数据集，主要包含Twitter上的评论文本和图像。这些数据集由Lu et al. [18]进一步标注了每个方面的情感极性。数据集的创建旨在评估多模态情感分析任务中模型的性能，特别是在提取方面术语及其对应情感极性方面的准确性和效率。该数据集的应用领域包括社交媒体情感分析、人机交互和医疗健康等，旨在解决多模态信息中的情感识别问题。

提供机构：

国防科技大学

创建时间：

2024-11-23

AI搜集汇总

数据集介绍

构建方式

Twitter-2015 和 Twitter-2017 数据集的构建基于Twitter平台上的用户评论，这些评论包含文本和图像信息。数据集通过人工标注的方式，对每个评论中的方面词（aspect terms）及其对应的情感极性（sentiment polarities）进行了详细标注。标注过程确保了每个方面词的情感标签（如正面、负面、中性）的准确性，从而为多模态情感分析提供了高质量的训练和测试数据。

特点

Twitter-2015 和 Twitter-2017 数据集的主要特点在于其多模态性，即结合了文本和图像两种信息源。这种多模态特性使得数据集在情感分析任务中能够捕捉到更丰富的语义信息。此外，数据集的标注精细，每个方面词都附有明确的情感标签，这为复杂和细粒度的情感分析任务提供了坚实的基础。

使用方法

Twitter-2015 和 Twitter-2017 数据集适用于多模态情感分析（MABSA）任务，研究人员可以利用这些数据集训练和评估模型在提取方面词及其情感极性方面的性能。使用时，可以将数据集分为训练集、验证集和测试集，通过对比不同模型的准确率、召回率和F1分数来评估其效果。此外，数据集还可用于探索大型语言模型（LLMs）在多模态情感分析中的适应性和性能。

背景与挑战

背景概述

Twitter-2015和Twitter-2017数据集由张琦等人于2015年和2017年创建，主要用于多模态命名实体识别任务，并由Lu等人进一步标注了每个方面的情感极性。这些数据集在多模态方面情感分析（MABSA）领域中具有重要地位，旨在从文本和图像等多模态信息中提取方面术语及其对应的情感极性。随着大型语言模型（LLMs）的发展，如Llama2、LLaVA和ChatGPT，其在通用任务中的强大能力引起了广泛关注，但其对MABSA任务的适应性仍需进一步探索。因此，构建这些数据集的目的是为了评估LLMs在MABSA任务中的表现，并与传统的监督学习方法进行比较，以揭示其在复杂和细粒度场景中的潜力与局限。

当前挑战

Twitter-2015和Twitter-2017数据集在构建和应用过程中面临多项挑战。首先，LLMs在处理MABSA任务时表现出对下游任务具体格式的不熟悉，这限制了其在情感判断中的准确性。其次，由于LLMs的推理速度和模型大小的限制，其所能使用的上下文学习（ICL）样本数量有限，且样本的代表性不足可能导致学习效果不佳。此外，LLMs在处理MABSA任务时的高计算成本也是一个显著问题，其推理时间远超传统监督学习方法，限制了其在实际应用中的可行性。这些挑战共同构成了LLMs在多模态情感分析领域中的主要障碍，亟需进一步的研究和优化。

常用场景

经典使用场景

Twitter-2015 和 Twitter-2017 数据集在多模态情感分析（MABSA）领域中被广泛应用于评估大型语言模型（LLMs）在处理文本和图像结合的情感分析任务中的表现。这些数据集通过结合社交媒体上的文本和图像，帮助研究者探索和比较不同模型在提取方面词及其对应情感极性方面的能力。经典使用场景包括使用这些数据集来训练和测试LLMs，如Llama2、LLaVA和ChatGPT，以评估其在多模态情感分析任务中的适应性和性能。

衍生相关工作

基于Twitter-2015 和 Twitter-2017 数据集，研究者们开发了多种多模态情感分析框架和模型，如LLM4SA框架，该框架利用多模态示例进行上下文学习，结合文本和视觉特征提取方面词及其情感极性。此外，还有如AoM（Aspect-oriented Method）和DQPSA（Dual Query Prompt as a Span）等方法，这些工作通过引入新的注意力机制和跨模态对齐技术，进一步提升了多模态情感分析的准确性和效率。

数据集最近研究

相关研究论文

1
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions国防科技大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录