MMSD3.0

github2026-02-28 更新2026-03-03 收录

下载链接：

https://github.com/ZHCMOONWIND/MMSD3.0

下载链接

链接失效反馈

官方服务：

资源简介：

MMSD3.0是第一个明确针对现实世界中多图像多模态讽刺检测的基准数据集，构建自X/Twitter和亚马逊评论，包含10,000多个样本，每个样本包含2-4张图像。它保留了更长的文本、表情符号信号和OCR丰富的视觉文本，用于更真实的多模态推理，并专注于由跨图像关系和文本-图像不一致性触发的讽刺。

MMSD3.0 is the first benchmark dataset explicitly targeting real-world multi-image multimodal sarcasm detection. Constructed from X/Twitter posts and Amazon customer reviews, it comprises over 10,000 samples, each containing 2 to 4 images. The dataset preserves longer textual content, emoji signals, and OCR-rich visual text to facilitate more realistic multimodal reasoning, and focuses on sarcasm triggered by cross-image relationships and text-image inconsistencies.

创建时间：

2026-02-24

原始信息汇总

MMSD3.0 数据集概述

基本信息

数据集名称：MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
官方仓库地址：https://github.com/ZHCMOONWIND/MMSD3.0
相关会议：CVPR 2026

数据集简介

MMSD3.0 是首个明确针对真实场景下多图像多模态讽刺检测的基准数据集。

数据来源：构建自 X/Twitter 和 Amazon reviews。
数据规模：包含 10,000+ 样本，每个样本包含 2–4 张图像。
数据特点：
- 保留了更长的文本、表情符号信号和富含OCR的视觉文本，以支持更真实的多模态推理。
- 专注于由跨图像关系和文本-图像不一致性触发的讽刺，超越了单图像讽刺检测。

数据集构成与获取

MMSD3.0 数据分为两部分，以方便访问并遵守不同数据源的政策。

1. Amazon Reviews 数据

数据源：Amazon Reviews 2023 (https://amazon-reviews-2023.github.io/)
图像下载：
1. 从 https://drive.google.com/file/d/1BdhwkK_vGC13IGnaKk7LZ7V934n95ayN/view?usp=drive_link 下载图像。
2. 将 images.zip 解压到 data/images/ 目录下。

2. X Platform 数据

数据形式：由于平台政策，提供的是帖子链接而非原始帖子内容。
获取方式：
- 选项一（申请访问）：通过填写访问请求表单 (https://forms.office.com/r/g3TZBSssqt) 申请获取完整的已处理数据。
- 选项二（自行重建）：运行提供的脚本 python download_tweets_from_api.py 来重建数据集。

数据处理

OCR文本提取：下载所有图像后，运行 python extract_ocr_text.py 脚本以提取OCR文本。提取结果存放于 ocr_results/ 目录。

文件结构概览

data/ dataset_image/ # MMSD1.0 & MMSD2.0 的图像根目录 images/ # MMSD3.0 的图像根目录 (Amazon & X platform) MMSD1/{train.txt, valid.txt, test.txt} MMSD2/{train.txt, valid.txt, test.txt} MMSD3/{train_data_opensource.json, val_data_opensource.json, test_data_opensource.json}

联系方式

如有任何问题、建议或疑问，请联系：zhaohaochen@iie.ac.cn

搜集汇总

数据集介绍

构建方式

在社交媒体与电商评论日益成为情感表达重要载体的背景下，MMSD3.0数据集的构建旨在捕捉真实场景中的多图像讽刺现象。该数据集从X/Twitter平台和Amazon Reviews 2023数据源中系统性地收集了超过一万个样本，每个样本包含二至四张图像，并保留了原始的长文本、表情符号以及富含光学字符识别信息的视觉文本。为确保数据的完整性与合规性，亚马逊评论部分的图像可直接下载，而X平台数据则通过提供帖子链接与重构脚本，或经由申请流程获取完整处理数据，从而构建出一个专注于跨图像关系与图文不一致性触发讽刺的多模态基准。

特点

作为首个专注于真实世界多图像多模态讽刺检测的基准，MMSD3.0的突出特点在于其样本均包含多张图像，这要求模型必须理解图像间的关联及其与文本的互动才能识别讽刺。数据集不仅保留了更长的文本语境和表情符号等非语言线索，还通过光学字符识别技术提取了图像中的文字信息，极大地丰富了讽刺推理所需的模态信号。这些设计使得该数据集能够更贴近现实世界中复杂、隐晦的讽刺表达，为推进多模态理解研究提供了更具挑战性的评估场景。

使用方法

为便于研究者使用，MMSD3.0提供了清晰的数据准备流程。用户需分别下载亚马逊评论图像并解压至指定目录，对于X平台数据，可选择运行提供的Python脚本进行数据重构，或提交申请表格以获取完整处理数据。随后，运行光学字符识别提取脚本以获取图像中的文本信息。在模型训练阶段，通过修改配置文件中的数据集名称与路径参数，即可适配MMSD1.0、MMSD2.0或MMSD3.0数据集，并运行主训练脚本开始实验，训练过程中的检查点与评估结果将自动保存至相应文件夹。

背景与挑战

背景概述

随着社交媒体和电子商务平台的蓬勃发展，多模态讽刺检测成为自然语言处理与计算机视觉交叉领域的前沿课题。MMSD3.0数据集由中国科学院信息工程研究所的研究团队于2026年构建，作为首个专注于真实场景下多图像多模态讽刺检测的基准，其核心研究问题在于如何通过跨图像关系与文本-图像不一致性来识别讽刺意图。该数据集从X/Twitter和亚马逊评论中采集了超过一万个样本，每个样本包含二至四幅图像，并保留了长文本、表情符号及富含光学字符识别的视觉文本，为多模态推理提供了更丰富的线索。MMSD3.0的发布不仅推动了多模态讽刺检测从单图像向多图像场景的演进，还为相关模型如跨图像推理模型的开发奠定了数据基础，对情感计算、人机交互等领域产生了显著影响。

当前挑战

在多模态讽刺检测领域，核心挑战在于准确捕捉文本与多幅图像之间的复杂不一致性，以及跨图像语义关联所触发的讽刺信号。传统单图像数据集难以模拟真实世界中通过图像序列或对比产生的讽刺表达，导致模型在泛化性和鲁棒性上存在局限。在数据集构建过程中，研究者面临数据采集与合规性的双重难题：一方面，需从X/Twitter和亚马逊等平台获取高质量、多样化的多图像样本，同时处理长文本、表情符号和视觉文本等多源信息；另一方面，必须严格遵守平台数据使用政策，通过提供重构脚本或访问申请等形式平衡数据开放性与合规要求，这增加了数据集的构建复杂度与可访问性门槛。

常用场景

经典使用场景

在社交媒体与电子商务平台中，多模态讽刺检测已成为理解用户复杂情感表达的关键技术。MMSD3.0数据集通过整合来自X/Twitter和亚马逊评论的真实多图像样本，为研究者提供了一个经典的使用场景：探索跨图像关系与文本-视觉不一致性所触发的讽刺现象。该数据集不仅包含长文本、表情符号及视觉文本等丰富线索，还支持对2至4张图像进行联合分析，从而在自然语境下模拟人类对讽刺的感知过程，推动多模态推理模型向更贴近现实的方向演进。

解决学术问题

传统单图像讽刺检测方法往往难以捕捉由多图像交互引发的微妙讽刺信号，限制了模型在真实场景中的适用性。MMSD3.0的推出，系统性地解决了多图像环境下讽刺识别这一学术难题，尤其针对跨模态不一致性、图像间语义关联以及长文本上下文理解等核心问题。通过提供大规模、高质量的多图像标注数据，该数据集促进了更精细的讽刺线索建模，为构建鲁棒的多模态讽刺检测框架奠定了数据基础，显著提升了该领域研究的深度与广度。

衍生相关工作

围绕MMSD3.0数据集，学术界已衍生出一系列经典研究工作，其中最具代表性的是与其同步提出的跨图像推理模型（CIRM）。该模型采用双阶段桥接与相关性引导融合机制，专门针对多图像讽刺检测任务设计，显著提升了模型对图像间关系的建模能力。此外，基于该数据集的扩展研究还涉及多模态预训练、视觉文本融合策略优化以及讽刺检测的可解释性分析等方面，这些工作共同推动了多模态情感计算领域的技术前沿，并为后续更复杂的多模态理解任务提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集