M3

github2026-03-24 更新2026-04-04 收录

下载链接：

https://github.com/mira-ai-lab/M3

下载链接

链接失效反馈

官方服务：

资源简介：

M3是一个多平台、多语言和多模态的meme数据集，旨在为多模态仇恨言论检测提供一个全面的基准。它包含2,455个高质量的多模态实例（meme图像与其相关帖子配对），来自不同的社交媒体平台，包括X、4chan和微博。数据集具有细粒度的仇恨言论标签和人工验证的理性解释，支持对MLLMs的评估。

M3 is a multi-platform, multilingual, and multimodal meme dataset aimed at providing a comprehensive benchmark for multimodal hate speech detection. It contains 2,455 high-quality multimodal instances, each pairing a meme image with its associated post, sourced from various social media platforms including X, 4chan, and Weibo. The dataset features fine-grained hate speech labels and manually verified rational explanations, supporting the evaluation of multimodal large language models (MLLMs).

创建时间：

2026-03-16

原始信息汇总

M3 数据集概述

数据集简介

M3 是一个为多模态仇恨言论检测提供的综合性基准数据集。它包含来自多个社交媒体平台的 2,455 个高质量多模态实例（表情包图像及其关联帖子），并带有细粒度的仇恨言论标签和人工验证的推理依据。

核心特征

数据规模：包含 2,455 个多模态实例，每个实例由一个表情包图像和对应的帖子文本组成。
仇恨类别：定义了 8 个细粒度的仇恨言论类别，灵感来源于联合国对仇恨言论的定义，具体包括：宗教、政治、种族、性别、健康状况、暴力、公共卫生和国际关系。
多语言与多平台覆盖：数据集涵盖英语、中文和阿拉伯语内容，确保语言和文化多样性。数据来源于 X（原 Twitter）、4chan 和微博平台。

数据结构

数据集以 JSON 格式组织，每个数据条目包含以下字段：

字段	类型	描述
img	字符串	图像文件名
img_text	字符串	从图像中提取的文本（OCR）
post_text	字符串	帖子的文本内容
label	字符串	内容是否包含仇恨言论（hate 或 normal）
category	列表	仇恨言论的类别列表
reason(rationale)	字符串	解释样本被标记为仇恨言论的原因

数据统计

样本总数：2,455
平台分布：
- X（原 Twitter）：526 个样本
- 4chan：1,400 个样本
- 微博：529 个样本
顶级标签分布：1,318 个仇恨样本，1,137 个正常样本。
仇恨类别分布：八个仇恨表情包类别的分布情况在数据集中有展示。
推理依据：包含 1,557 条解释表情包为何具有仇恨性的推理依据。单一推理与多重推理的分布情况在数据集中有展示。

数据示例

一个典型的数据条目结构如下： json { "img": "162.jpg", "img_text": "EXTERMINATION IS EVERYONES JOB", "post_text": "Kill all the kikes,.There, problems solved...Death to kikes", "label": "hate", "category": [ "race", "violence" ], "reason": "Insult Jews; Spread threats of violence" }

目录结构

数据集在仓库中的主要结构如下：

M3/ ├── dataset/ # M3 数据集主目录 │ ├── img/ # 存放图像文件 │ ├── CHEM.json # 主数据集文件 │ ├── CHEM_twitter.json # Twitter 平台数据子集 │ ├── CHEM_weibo.json # 微博平台数据子集 │ ├── CHEM_4chan.json # 4chan 平台数据子集 │ ├── CHEM_hate.json # 仇恨言论数据子集 │ ├── CHEM_hate_twitter.json │ ├── CHEM_hate_weibo.json │ └── CHEM_hate_4chan.json

引用信息

如果使用本数据集，请引用以下文献： bibtex @article{ma2025fortisavqa, title={Is AI Ready for Multimodal Hate Speech Detection? A Comprehensive Dataset and Benchmark Evaluation}, author={Xing, Rui and Chai, Qi and Ma, Jie and Tao, Jing and Wang, Pinghui and Zhang, Shuming and Wang, Xinping and Wang, Hao}, journal={arXiv preprint arXiv:2603.21686}, year={2026} }

搜集汇总

数据集介绍

构建方式

在社交媒体内容分析领域，多模态仇恨言论检测面临着数据稀缺与标注标准不一的挑战。M3数据集的构建过程体现了严谨的学术规范，其核心是从X、4chan和微博三大平台系统性地收集了2455个高质量的图文配对样本。构建流程首先通过精心设计的筛选机制获取原始多媒体帖子，随后利用光学字符识别技术提取图像内嵌文本，并与帖子正文进行关联。标注工作由经过培训的专业人员执行，他们依据联合国对仇恨言论的定义框架，为每个样本标注了二元仇恨标签，并细分为宗教、政治、种族等八个精细类别。为确保标注的可靠性与可解释性，标注者还需为每个被判定为仇恨的样本提供详细的人类验证理由，这一过程有效保障了数据集的深度与可信度。

特点

M3数据集以其多维度的覆盖范围和精细的标注体系而著称，为多模态仇恨言论检测研究提供了宝贵的资源。该数据集最显著的特征在于其“多平台、多语言、多模态”的综合性设计，它囊括了来自英语、中文和阿拉伯语社群的内容，真实反映了跨文化语境下仇恨言论的多样性。在数据构成上，每个实例均由模因图像及其关联的帖子文本构成，形成了完整的跨模态分析单元。其标注体系不仅包含顶层的“仇恨”与“正常”二元分类，更深入至八个受联合国启发的细粒度仇恨类别，并附有解释标注决策的人类验证理由。这种结构使得数据集既能支持粗粒度的检测任务，也能服务于细粒度的分类与可解释性人工智能研究。

使用方法

对于致力于多模态内容理解的研究者而言，M3数据集提供了一个标准化的评估基准。数据集以结构化的JSON文件形式发布，每个条目清晰包含了图像文件名、图像文本、帖子文本、标签、类别列表及理由等字段，便于直接加载与分析。使用者可依据研究目标灵活选取数据子集，例如按平台或按仇恨类别进行划分。数据集目录中提供的预处理、光学字符识别及评估脚本，能够辅助研究者完成从数据清洗到模型性能评测的全流程。在具体应用中，该数据集可用于训练和评估大型多模态模型在跨平台、跨语言场景下识别与理解仇恨言论的能力，尤其适合用于探究模型在细粒度分类与可解释性推理方面的表现。

背景与挑战

背景概述

在社交媒体内容日益多元化的背景下，多模态仇恨言论检测成为自然语言处理与计算机视觉交叉领域的重要研究方向。M3数据集由Mira AI实验室的研究团队于2026年构建，旨在为多平台、多语言及多模态的仇恨言论识别提供一个综合性基准。该数据集聚焦于从X、4chan及微博等平台收集的2455个高质量多模态实例，每个实例均由模因图像及其关联文本构成，并依据联合国对仇恨言论的定义细分为八大类别。其核心研究问题在于如何有效整合图像与文本信息，以精准识别跨文化、跨语言的仇恨内容，对推动多模态大语言模型在内容安全领域的应用具有显著影响力。

当前挑战

M3数据集致力于解决多模态仇恨言论检测中的核心挑战，即如何克服图像与文本之间的语义鸿沟，实现跨模态的仇恨意图精准识别。具体而言，构建过程中面临多语言文本的语义对齐难题，需协调英语、中文及阿拉伯语在文化语境上的差异；同时，模因图像中隐含的讽刺、隐喻等非直接表达增加了标注的复杂性，要求标注者具备深层的文化理解能力。此外，数据来自不同社交平台，其内容风格与用户群体的多样性对模型泛化性能提出了更高要求，这些因素共同构成了该数据集在理论与应用层面的双重挑战。

常用场景

经典使用场景

在社交媒体内容安全领域，M3数据集为多模态仇恨言论检测提供了标准化的评估基准。该数据集整合了来自X、4chan和微博等平台的图文内容，覆盖英语、中文和阿拉伯语，其精细标注的仇恨类别与人工验证的理性依据，使得研究人员能够系统评估多模态大语言模型在复杂语境下的识别能力。经典应用场景包括训练模型区分正常内容与涉及宗教、种族、性别等八类仇恨言论的图文组合，推动跨平台、跨语言的多模态分析研究。

衍生相关工作

围绕M3数据集，学术界已衍生出一系列经典研究工作。例如，研究者利用其多模态特性开发了融合视觉与文本特征的深度检测模型，提升了仇恨言论的分类精度；另有工作基于数据集的理性标注，探索了可解释性检测方法，揭示模型决策依据。这些成果不仅推动了多模态自然语言处理与计算机视觉的交叉创新，还为后续构建更鲁棒、公平的內容安全系统奠定了坚实基础，持续拓展着人工智能在社会计算领域的应用边界。

数据集最近研究