MACSA|多模态情感分析数据集|细粒度标注数据集

arXiv2022-06-28 更新2024-08-06 收录

多模态情感分析

细粒度标注

下载链接：

http://arxiv.org/abs/2206.13969v1

下载链接

链接失效反馈

资源简介：

MACSA数据集是由哈尔滨工业大学创建的，包含超过21,000个文本-图像对的中文多模态方面类别情感分析数据集。该数据集首次为文本和图像内容提供细粒度标注，并使用方面类别作为桥梁，对两种模态的细粒度元素进行对齐。MACSA数据集主要用于解决多模态情感分析中的方面缺失问题，通过图像中的细粒度元素补充文本中缺失的方面信息。此外，数据集还设计了六个预定义的方面类别：位置、食物、房间、娱乐、公共区域和服务，以适应实际应用中的多模态数据处理需求。

提供机构：

哈尔滨工业大学

创建时间：

2022-06-28

AI搜集汇总

数据集介绍

构建方式

MACSA数据集的构建采用了从中国大型在线旅游网站“去哪儿网”收集的用户生成的原始多模态评论，共收集了12万个评论。然后，选择包含最多六张图片的评论，并限制评论的最大长度为512个字符。最终，收集了2.4万个带图片的评论作为未标记数据。为了便于图像标注，使用了目标检测工具detectron2来自动检测图像中的感兴趣区域（RoI）。通过对多模态细粒度标注和删除存在严重标注冲突的数据，最终得到了包含RoI的2.1万个文本-图像对作为MACSA数据集。为了确保不同模态标签的独立性，邀请了12位专业标注员参与数据标注。首先，由一位专业博士和两位经验丰富的研究员根据管理知识和对原始数据的统计分析，定义了六个方面类别。然后，对于每对文本-图像，需要标注以下元素：文本标注、图像标注和文本-图像对标注。为了解决图像模态中的细粒度元素如何与文本模态中的细粒度元素对齐的问题，我们提出使用方面类别作为中间节点，以目标类别为枢纽来对齐跨模态的细粒度元素，并建立多模态细粒度异构图来构建跨模态关系。

使用方法

MACSA数据集可以用于多模态方面类别情感分析任务，旨在识别每个预定义方面类别的情感倾向。使用方面类别作为枢纽，可以有效地对齐文本和图像之间的细粒度元素，从而提高情感分析的准确性。此外，MACSA数据集还可以用于其他多模态任务，例如图像-意见生成等。

背景与挑战

背景概述

MACSA数据集是由哈尔滨工业大学的研究团队创建的，旨在解决多模态细粒度情感分析中的挑战。该数据集于2022年6月首次提出，包含超过21,000个文本-图像对，并提供了文本和图像内容的细粒度标注。MACSA数据集的核心研究问题是识别每个预定义的方面类别（如位置、食物、房间、娱乐、公共区域和服务）的情感倾向。该数据集的创建填补了多模态细粒度情感分析领域的一个空白，因为现有的数据集主要集中在文本内容的细粒度标注，而忽略了图像内容的细粒度标注。MACSA数据集的提出对相关领域产生了重要影响，为多模态情感分析研究提供了新的数据基础和任务定义。

当前挑战

MACSA数据集面临的主要挑战包括：1) 所解决的领域问题：多模态细粒度情感分析任务中，如何有效地整合文本和图像中的细粒度元素，以准确识别每个方面类别的情感倾向。2) 构建过程中所遇到的挑战：图像内容的细粒度标注难度较大，需要开发有效的工具和方法来识别和标注图像中的感兴趣区域（RoI）。此外，如何将文本和图像中的细粒度元素对齐，以便进行有效的跨模态融合，也是构建数据集时需要解决的挑战。

常用场景

经典使用场景

在多模态细粒度情感分析领域，MACSA数据集以其对文本和视觉内容进行细粒度标注的独特性而备受关注。该数据集包含超过21K的文本-图像对，为研究者在情感分析任务中提供了丰富的细粒度元素。MACSA数据集最经典的使用场景之一是用于多模态情感分类任务，其中模型需要识别每个预定义的方面类别并预测其情感标签。此外，该数据集还适用于研究多模态数据中的方面缺失问题，通过图像中的细粒度元素来补充文本中缺失的方面信息。

解决学术问题

MACSA数据集解决了现有多模态细粒度情感数据集在图像标注方面的不足。以往的数据集主要关注文本中的细粒度元素，而忽略了图像中的相关信息。MACSA数据集首次为图像提供了细粒度标注，并通过方面类别作为连接文本和图像中细粒度元素的桥梁。这种标注方式有助于更深入地研究多模态情感分析，并为解决文本中方面缺失的问题提供了新的思路。此外，MACSA数据集还提供了MACSA-hard数据集，其中包含更高比例的方面缺失情况，为研究多模态情感分析中的方面缺失问题提供了重要的实验平台。

实际应用

MACSA数据集在实际应用场景中具有广泛的应用潜力。例如，在酒店在线预订服务中，该数据集可以用于分析用户对酒店各个方面的情感倾向，如地理位置、食物、房间设施、娱乐活动、公共区域和服务等。通过对这些方面的情感分析，酒店可以了解用户的关注点和满意度，从而改进服务质量和提升用户满意度。此外，MACSA数据集还可以应用于其他多模态任务，如图像到意见生成等，为相关研究和应用提供支持。

数据集最近研究

相关研究论文

1
MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations哈尔滨工业大学 · 2022年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

data

食神オリジナルデータ

github 收录

The Stack v2

The Stack v2 dataset is a collection of source code in over 600 programming languages.

huggingface 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录