MACSA

Name: MACSA
Creator: 哈尔滨工业大学
Published: 2022-06-28 20:49:16
License: 暂无描述

arXiv2022-06-28 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.13969v1

下载链接

链接失效反馈

官方服务：

资源简介：

MACSA数据集是由哈尔滨工业大学创建的，包含超过21,000个文本-图像对的中文多模态方面类别情感分析数据集。该数据集首次为文本和图像内容提供细粒度标注，并使用方面类别作为桥梁，对两种模态的细粒度元素进行对齐。MACSA数据集主要用于解决多模态情感分析中的方面缺失问题，通过图像中的细粒度元素补充文本中缺失的方面信息。此外，数据集还设计了六个预定义的方面类别：位置、食物、房间、娱乐、公共区域和服务，以适应实际应用中的多模态数据处理需求。

The MACSA dataset was created by Harbin Institute of Technology. It is a Chinese multimodal aspect-category sentiment analysis dataset containing over 21,000 text-image pairs. This dataset is the first to provide fine-grained annotations for both text and image content, and uses aspect categories as a bridge to align fine-grained elements across the two modalities. The MACSA dataset is primarily designed to address the aspect absence problem in multimodal sentiment analysis, by supplementing the aspect information missing from text with fine-grained elements from images. In addition, the dataset defines six pre-defined aspect categories: location, food, room, entertainment, public area, and service, to meet the multimodal data processing requirements in practical applications.

提供机构：

哈尔滨工业大学

创建时间：

2022-06-28

搜集汇总

数据集介绍

构建方式

MACSA数据集的构建采用了从中国大型在线旅游网站“去哪儿网”收集的用户生成的原始多模态评论，共收集了12万个评论。然后，选择包含最多六张图片的评论，并限制评论的最大长度为512个字符。最终，收集了2.4万个带图片的评论作为未标记数据。为了便于图像标注，使用了目标检测工具detectron2来自动检测图像中的感兴趣区域（RoI）。通过对多模态细粒度标注和删除存在严重标注冲突的数据，最终得到了包含RoI的2.1万个文本-图像对作为MACSA数据集。为了确保不同模态标签的独立性，邀请了12位专业标注员参与数据标注。首先，由一位专业博士和两位经验丰富的研究员根据管理知识和对原始数据的统计分析，定义了六个方面类别。然后，对于每对文本-图像，需要标注以下元素：文本标注、图像标注和文本-图像对标注。为了解决图像模态中的细粒度元素如何与文本模态中的细粒度元素对齐的问题，我们提出使用方面类别作为中间节点，以目标类别为枢纽来对齐跨模态的细粒度元素，并建立多模态细粒度异构图来构建跨模态关系。

使用方法

MACSA数据集可以用于多模态方面类别情感分析任务，旨在识别每个预定义方面类别的情感倾向。使用方面类别作为枢纽，可以有效地对齐文本和图像之间的细粒度元素，从而提高情感分析的准确性。此外，MACSA数据集还可以用于其他多模态任务，例如图像-意见生成等。

背景与挑战

背景概述

MACSA数据集是由哈尔滨工业大学的研究团队创建的，旨在解决多模态细粒度情感分析中的挑战。该数据集于2022年6月首次提出，包含超过21,000个文本-图像对，并提供了文本和图像内容的细粒度标注。MACSA数据集的核心研究问题是识别每个预定义的方面类别（如位置、食物、房间、娱乐、公共区域和服务）的情感倾向。该数据集的创建填补了多模态细粒度情感分析领域的一个空白，因为现有的数据集主要集中在文本内容的细粒度标注，而忽略了图像内容的细粒度标注。MACSA数据集的提出对相关领域产生了重要影响，为多模态情感分析研究提供了新的数据基础和任务定义。

当前挑战

MACSA数据集面临的主要挑战包括：1) 所解决的领域问题：多模态细粒度情感分析任务中，如何有效地整合文本和图像中的细粒度元素，以准确识别每个方面类别的情感倾向。2) 构建过程中所遇到的挑战：图像内容的细粒度标注难度较大，需要开发有效的工具和方法来识别和标注图像中的感兴趣区域（RoI）。此外，如何将文本和图像中的细粒度元素对齐，以便进行有效的跨模态融合，也是构建数据集时需要解决的挑战。

常用场景

经典使用场景

在多模态细粒度情感分析领域，MACSA数据集以其对文本和视觉内容进行细粒度标注的独特性而备受关注。该数据集包含超过21K的文本-图像对，为研究者在情感分析任务中提供了丰富的细粒度元素。MACSA数据集最经典的使用场景之一是用于多模态情感分类任务，其中模型需要识别每个预定义的方面类别并预测其情感标签。此外，该数据集还适用于研究多模态数据中的方面缺失问题，通过图像中的细粒度元素来补充文本中缺失的方面信息。

解决学术问题

MACSA数据集解决了现有多模态细粒度情感数据集在图像标注方面的不足。以往的数据集主要关注文本中的细粒度元素，而忽略了图像中的相关信息。MACSA数据集首次为图像提供了细粒度标注，并通过方面类别作为连接文本和图像中细粒度元素的桥梁。这种标注方式有助于更深入地研究多模态情感分析，并为解决文本中方面缺失的问题提供了新的思路。此外，MACSA数据集还提供了MACSA-hard数据集，其中包含更高比例的方面缺失情况，为研究多模态情感分析中的方面缺失问题提供了重要的实验平台。

实际应用

MACSA数据集在实际应用场景中具有广泛的应用潜力。例如，在酒店在线预订服务中，该数据集可以用于分析用户对酒店各个方面的情感倾向，如地理位置、食物、房间设施、娱乐活动、公共区域和服务等。通过对这些方面的情感分析，酒店可以了解用户的关注点和满意度，从而改进服务质量和提升用户满意度。此外，MACSA数据集还可以应用于其他多模态任务，如图像到意见生成等，为相关研究和应用提供支持。

数据集最近研究