MMSD3.0

Name: MMSD3.0
Creator: 中国科学院信息工程研究所, 中国科学院大学网络空间安全学院
Published: 2025-10-27T21:05:27+08:00

arXiv2025-10-27 更新2025-10-29 收录

多模态讽刺检测

图像处理

数据链接：

https://archive.org/details/twitterstream 数据链接链接失效反馈

官方服务：

资源简介：

MMSD3.0是一个由多图像样本组成的全新基准数据集，旨在解决现实生活中多图像场景下的讽刺检测问题。该数据集包含来自推文和亚马逊评论的超过10,000个实例，每个实例包含两张到四张图像。数据集经过两轮标注，由九位标注者完成，以确保高质量标签。MMSD3.0更贴近现实世界的内容，为推动多模态讽刺检测在实践中的应用提供了宝贵的数据集。

MMSD3.0 is a novel benchmark dataset composed of multi-image samples, designed to tackle the issue of sarcasm detection in real-world multi-image scenarios. This dataset includes over 10,000 instances sourced from tweets and Amazon reviews, with each instance containing 2 to 4 images. It was annotated in two rounds by nine annotators to guarantee high-quality labels. MMSD3.0 aligns better with real-world content, serving as a valuable dataset to advance the practical application of multimodal sarcasm detection.

提供机构：

中国科学院信息工程研究所, 中国科学院大学网络空间安全学院

创建时间：

2025-10-27

搜集汇总

数据集介绍

构建方式

在社交媒体多模态内容日益丰富的背景下，MMSD3.0数据集从Twitter和Amazon平台收集了超过10,000条包含2至4张图像的多图像样本，以弥补现有单图像数据在真实场景语义关联建模上的不足。数据采集过程摒弃了基于特定标签的筛选策略，转而采用无限制的公开内容获取方式，同时保留了原始数据中的表情符号以维持情感信号的完整性。为确保标注质量，九名具有多模态研究背景的标注者进行了两轮独立标注，并通过在线检索辅助理解背景知识，最终Cohen's Kappa系数达到0.816，体现了高度一致的标注可靠性。

特点

作为首个专注于多图像场景的讽刺检测基准，MMSD3.0的突出特点在于其样本均包含2至4张具有潜在语义关联的图像，能够有效模拟真实场景中通过图像间对比或叙事关系触发的讽刺表达。数据集文本平均长度达31词，显著长于先前基准，提供了更丰富的上下文信息；超过65%的图像包含OCR可识别文本，23%-25%的样本保留表情符号，这些细粒度线索为多模态对齐提供了关键支撑。此外，通过引入平台异构数据和AI生成内容增强，数据集在覆盖范围和泛化能力上展现出显著优势。

使用方法

该数据集适用于训练和评估多模态讽刺检测模型，尤其适合研究跨图像语义推理任务。使用时需将文本与有序图像序列作为联合输入，其中图像位置编码对理解叙事结构至关重要。建议采用OCR特征提取和表情符号保留策略以充分利用细粒度模态信息；对于单图像模型的适配，可通过画布拼接或特征级联实现多图像输入。数据集按70:15:15比例划分为训练、验证和测试集，评估时应重点关注模型对图像间关联关系的捕捉能力，以及跨模态对齐的细粒度建模效果。

背景与挑战

背景概述

多模态讽刺检测作为自然语言处理与计算机视觉交叉领域的重要研究方向，旨在通过分析文本与图像的矛盾性识别隐含的讽刺意图。MMSD3.0数据集由中国科学院信息工程研究所团队于2025年提出，其核心突破在于首次聚焦多图像场景下的讽刺检测问题。该数据集基于推特和亚马逊平台构建，包含逾万条含2至4张图像的样本，通过两轮人工标注确保标签质量，显著提升了模型在真实场景中的适用性。该研究填补了现有单图像数据集无法捕捉跨图像语义关联的空白，为多模态推理任务提供了更贴近实际应用场景的评估基准。

当前挑战

多图像讽刺检测面临双重挑战：在领域问题层面，传统单图像模型难以建模图像间的潜在语义关联，例如依赖多图像对比或叙事连贯性触发的讽刺场景；在构建过程中，需克服标注主观性带来的一致性难题，通过多轮标注与在线背景查询降低人工偏差。同时，数据采集需平衡平台特性差异，避免推特标签引入的文本偏见，并保留表情符号与OCR文本等细粒度情感信号。此外，处理AI生成内容与长文本语境对模型跨模态对齐能力提出了更高要求。

常用场景

经典使用场景

在社交媒体情感分析领域，MMSD3.0数据集通过构建包含2-4张图像的多图像样本，为研究多图像情境下的讽刺检测提供了标准测试平台。该数据集特别适用于探索图像间语义关联与情感对比触发的讽刺表达机制，例如通过左右图像的视觉反差形成反讽叙事，为多模态推理模型提供了丰富的跨图像关系建模场景。

衍生相关工作

基于该数据集提出的跨图像推理模型（CIRM）开创了双阶段跨模态桥接架构，启发了后续多图像序列建模研究。其位置编码机制与相关性引导融合方法为多模态大语言模型处理图像序列提供了新范式，相关技术已被拓展应用于视觉叙事生成、跨图像语义检索等衍生方向。

数据集最近研究