five

MACSA|多模态情感分析数据集|细粒度标注数据集

收藏
arXiv2022-06-28 更新2024-08-06 收录
多模态情感分析
细粒度标注
下载链接:
http://arxiv.org/abs/2206.13969v1
下载链接
链接失效反馈
资源简介:
MACSA数据集是由哈尔滨工业大学创建的,包含超过21,000个文本-图像对的中文多模态方面类别情感分析数据集。该数据集首次为文本和图像内容提供细粒度标注,并使用方面类别作为桥梁,对两种模态的细粒度元素进行对齐。MACSA数据集主要用于解决多模态情感分析中的方面缺失问题,通过图像中的细粒度元素补充文本中缺失的方面信息。此外,数据集还设计了六个预定义的方面类别:位置、食物、房间、娱乐、公共区域和服务,以适应实际应用中的多模态数据处理需求。
提供机构:
哈尔滨工业大学
创建时间:
2022-06-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
MACSA数据集的构建采用了从中国大型在线旅游网站“去哪儿网”收集的用户生成的原始多模态评论,共收集了12万个评论。然后,选择包含最多六张图片的评论,并限制评论的最大长度为512个字符。最终,收集了2.4万个带图片的评论作为未标记数据。为了便于图像标注,使用了目标检测工具detectron2来自动检测图像中的感兴趣区域(RoI)。通过对多模态细粒度标注和删除存在严重标注冲突的数据,最终得到了包含RoI的2.1万个文本-图像对作为MACSA数据集。为了确保不同模态标签的独立性,邀请了12位专业标注员参与数据标注。首先,由一位专业博士和两位经验丰富的研究员根据管理知识和对原始数据的统计分析,定义了六个方面类别。然后,对于每对文本-图像,需要标注以下元素:文本标注、图像标注和文本-图像对标注。为了解决图像模态中的细粒度元素如何与文本模态中的细粒度元素对齐的问题,我们提出使用方面类别作为中间节点,以目标类别为枢纽来对齐跨模态的细粒度元素,并建立多模态细粒度异构图来构建跨模态关系。
使用方法
MACSA数据集可以用于多模态方面类别情感分析任务,旨在识别每个预定义方面类别的情感倾向。使用方面类别作为枢纽,可以有效地对齐文本和图像之间的细粒度元素,从而提高情感分析的准确性。此外,MACSA数据集还可以用于其他多模态任务,例如图像-意见生成等。
背景与挑战
背景概述
MACSA数据集是由哈尔滨工业大学的研究团队创建的,旨在解决多模态细粒度情感分析中的挑战。该数据集于2022年6月首次提出,包含超过21,000个文本-图像对,并提供了文本和图像内容的细粒度标注。MACSA数据集的核心研究问题是识别每个预定义的方面类别(如位置、食物、房间、娱乐、公共区域和服务)的情感倾向。该数据集的创建填补了多模态细粒度情感分析领域的一个空白,因为现有的数据集主要集中在文本内容的细粒度标注,而忽略了图像内容的细粒度标注。MACSA数据集的提出对相关领域产生了重要影响,为多模态情感分析研究提供了新的数据基础和任务定义。
当前挑战
MACSA数据集面临的主要挑战包括:1) 所解决的领域问题:多模态细粒度情感分析任务中,如何有效地整合文本和图像中的细粒度元素,以准确识别每个方面类别的情感倾向。2) 构建过程中所遇到的挑战:图像内容的细粒度标注难度较大,需要开发有效的工具和方法来识别和标注图像中的感兴趣区域(RoI)。此外,如何将文本和图像中的细粒度元素对齐,以便进行有效的跨模态融合,也是构建数据集时需要解决的挑战。
常用场景
经典使用场景
在多模态细粒度情感分析领域,MACSA数据集以其对文本和视觉内容进行细粒度标注的独特性而备受关注。该数据集包含超过21K的文本-图像对,为研究者在情感分析任务中提供了丰富的细粒度元素。MACSA数据集最经典的使用场景之一是用于多模态情感分类任务,其中模型需要识别每个预定义的方面类别并预测其情感标签。此外,该数据集还适用于研究多模态数据中的方面缺失问题,通过图像中的细粒度元素来补充文本中缺失的方面信息。
解决学术问题
MACSA数据集解决了现有多模态细粒度情感数据集在图像标注方面的不足。以往的数据集主要关注文本中的细粒度元素,而忽略了图像中的相关信息。MACSA数据集首次为图像提供了细粒度标注,并通过方面类别作为连接文本和图像中细粒度元素的桥梁。这种标注方式有助于更深入地研究多模态情感分析,并为解决文本中方面缺失的问题提供了新的思路。此外,MACSA数据集还提供了MACSA-hard数据集,其中包含更高比例的方面缺失情况,为研究多模态情感分析中的方面缺失问题提供了重要的实验平台。
实际应用
MACSA数据集在实际应用场景中具有广泛的应用潜力。例如,在酒店在线预订服务中,该数据集可以用于分析用户对酒店各个方面的情感倾向,如地理位置、食物、房间设施、娱乐活动、公共区域和服务等。通过对这些方面的情感分析,酒店可以了解用户的关注点和满意度,从而改进服务质量和提升用户满意度。此外,MACSA数据集还可以应用于其他多模态任务,如图像到意见生成等,为相关研究和应用提供支持。
数据集最近研究
最新研究方向
在多媒体细粒度情感分析领域,MACSA数据集的提出标志着对图像细粒度元素的关注和探索。该数据集不仅包含了超过21K的文本-图像对,还提供了对文本和视觉内容的细粒度注释,并首次使用方面类别作为枢纽来对齐两种模态中的细粒度元素。MACSA数据集的提出,不仅填补了现有数据集中对图像细粒度元素注释的空白,还为研究人员提供了更丰富的信息,有助于解决方面缺失问题。此外,MACSA数据集还为多媒体方面类别情感分析任务提供了新的研究方向,有助于提升模型在现实世界数据处理中的表现。
相关研究论文
  • 1
    MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations哈尔滨工业大学 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录