Chimera

Name: Chimera
Creator: 华东师范大学计算机科学与技术学院, 新加坡南洋理工大学计算机学院, 新加坡国立大学公共卫生学院
Published: 2025-04-22 20:43:37
License: 暂无描述

arXiv2025-04-22 更新2025-04-24 收录

下载链接：

https://github.com/Xillv/Chimera

下载链接

链接失效反馈

官方服务：

资源简介：

Chimera是一个基于多模态情感分类任务的数据集，由华东师范大学、新加坡南洋理工大学和新加坡国立大学合作创建。该数据集旨在通过结合文本和图像信息，捕捉特定目标或方面的情感极性，支持多模态内容分析。数据集整合了细粒度的视觉特征和文本描述，利用大型语言模型生成的语义和情感理由来增强模型对情感线索的理解。目前，该数据集已公开，可通过GitHub访问，但具体的数据集条数未在文中提及。

Chimera is a multimodal sentiment classification dataset co-developed by East China Normal University, Nanyang Technological University (Singapore), and National University of Singapore. This dataset is designed to capture the sentiment polarity of specific targets or aspects by integrating textual and visual information, thereby supporting multimodal content analysis. It integrates fine-grained visual features and textual descriptions, and utilizes semantic and affective rationales generated by large language models to enhance models' understanding of emotional cues. Currently, this dataset has been publicly released and is accessible via GitHub; however, the exact number of samples included in the dataset is not specified in the available literature.

提供机构：

华东师范大学计算机科学与技术学院, 新加坡南洋理工大学计算机学院, 新加坡国立大学公共卫生学院

创建时间：

2025-04-22

搜集汇总

数据集介绍

构建方式

Chimera数据集的构建采用了多模态情感因果理解框架，通过整合视觉补丁特征、粗粒度与细粒度视觉特征，并借助大型语言模型生成情感诱因和印象，从而实现对多模态方面情感分类任务的全面覆盖。具体步骤包括视觉补丁与词汇对齐、对象级视觉特征提取及文本描述转换，最终通过多任务学习框架整合语义和印象理性，以增强模型对情感线索的感知能力。

特点

Chimera数据集的核心特点在于其融合了认知与美学情感因果关系，通过细粒度视觉内容分析和情感诱因推理，提供了对多模态情感表达的深入理解。该数据集不仅包含传统的情感极性标注，还扩展了语义理性（SR）和印象理性（IR）数据，为研究情感表达的深层驱动力提供了丰富资源。此外，其动态补丁选择和语义校准机制有效解决了视觉与文本模态间的语义鸿沟问题。

使用方法

Chimera数据集的使用方法主要围绕其多任务学习框架展开，支持情感分类、语义理性生成和印象理性生成三个任务。用户可通过输入文本-图像对及特定目标，利用数据集提供的翻译模块和理性感知学习框架，实现情感极性的预测及情感诱因的解释。数据集还提供了预训练的序列到序列模型，便于用户快速进行模型微调和性能评估。

背景与挑战

背景概述

Chimera数据集由Luwei Xiao等人于2025年提出，旨在解决多模态方面级情感分类（MASC）任务中的认知与美学因果理解问题。该数据集由华东师范大学和南洋理工大学的研究团队联合构建，聚焦于社交媒体平台上的图文对数据，通过整合细粒度视觉特征与情感因果推理，填补了现有MASC研究在语义内容与情感认知共振机制解析上的空白。其创新性体现在首次将大型语言模型生成的语义依据（SR）与印象依据（IR）纳入多模态情感分析框架，为理解文本-图像协同作用下的情感表达驱动因素提供了新范式。该数据集通过公开的GitHub仓库发布，已成为推动多模态细粒度情感计算发展的重要基准。

当前挑战

Chimera数据集面临双重挑战：在领域问题层面，需解决视觉补丁重复导致的语义模糊问题，以及跨模态对齐中细粒度视觉线索与文本目标的错位问题，这对精准捕捉特定方面的情感极性构成障碍；在构建过程中，如何通过视觉补丁动态选择与语义校准实现跨模态细粒度对齐，以及如何利用大型语言模型生成兼具事实性与情感解释力的认知依据，成为关键技术难点。此外，数据集中93%的目标在图像中缺失的客观限制，要求模型必须平衡文本主导情感与视觉美学影响的权重分配，这对构建鲁棒的多模态推理框架提出了更高要求。

常用场景

经典使用场景

Chimera数据集在多模态方面情感分类（MASC）任务中展现了其卓越的应用价值。该数据集通过整合文本和图像模态，特别关注于特定目标的情感极性预测。其经典使用场景包括社交媒体平台上的用户生成内容分析，例如Twitter上的图像-文本对。在这些场景中，Chimera能够有效捕捉文本和图像之间的细粒度情感线索，从而提升情感分类的准确性和深度。

衍生相关工作

Chimera数据集衍生了一系列相关经典工作，包括基于视觉-文本融合的方法和翻译方法。例如，ESAFN和TomBERT等模型通过不同的注意力机制实现了视觉和文本特征的直接融合。另一方面，EF-CapTrBERT和FITE等翻译方法将视觉内容转化为辅助文本表示，进一步丰富了情感分析的维度。这些工作共同推动了多模态情感分析领域的发展，并为后续研究提供了重要的参考和基础。

数据集最近研究