M3
收藏M3 数据集概述
数据集简介
M3 是一个为多模态仇恨言论检测提供的综合性基准数据集。它包含来自多个社交媒体平台的 2,455 个高质量多模态实例(表情包图像及其关联帖子),并带有细粒度的仇恨言论标签和人工验证的推理依据。
核心特征
- 数据规模:包含 2,455 个多模态实例,每个实例由一个表情包图像和对应的帖子文本组成。
- 仇恨类别:定义了 8 个细粒度的仇恨言论类别,灵感来源于联合国对仇恨言论的定义,具体包括:宗教、政治、种族、性别、健康状况、暴力、公共卫生和国际关系。
- 多语言与多平台覆盖:数据集涵盖英语、中文和阿拉伯语内容,确保语言和文化多样性。数据来源于 X(原 Twitter)、4chan 和微博平台。
数据结构
数据集以 JSON 格式组织,每个数据条目包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
| img | 字符串 | 图像文件名 |
| img_text | 字符串 | 从图像中提取的文本(OCR) |
| post_text | 字符串 | 帖子的文本内容 |
| label | 字符串 | 内容是否包含仇恨言论(hate 或 normal) |
| category | 列表 | 仇恨言论的类别列表 |
| reason(rationale) | 字符串 | 解释样本被标记为仇恨言论的原因 |
数据统计
- 样本总数:2,455
- 平台分布:
- X(原 Twitter):526 个样本
- 4chan:1,400 个样本
- 微博:529 个样本
- 顶级标签分布:1,318 个仇恨样本,1,137 个正常样本。
- 仇恨类别分布:八个仇恨表情包类别的分布情况在数据集中有展示。
- 推理依据:包含 1,557 条解释表情包为何具有仇恨性的推理依据。单一推理与多重推理的分布情况在数据集中有展示。
数据示例
一个典型的数据条目结构如下: json { "img": "162.jpg", "img_text": "EXTERMINATION IS EVERYONES JOB", "post_text": "Kill all the kikes,.There, problems solved...Death to kikes", "label": "hate", "category": [ "race", "violence" ], "reason": "Insult Jews; Spread threats of violence" }
目录结构
数据集在仓库中的主要结构如下:
M3/ ├── dataset/ # M3 数据集主目录 │ ├── img/ # 存放图像文件 │ ├── CHEM.json # 主数据集文件 │ ├── CHEM_twitter.json # Twitter 平台数据子集 │ ├── CHEM_weibo.json # 微博平台数据子集 │ ├── CHEM_4chan.json # 4chan 平台数据子集 │ ├── CHEM_hate.json # 仇恨言论数据子集 │ ├── CHEM_hate_twitter.json │ ├── CHEM_hate_weibo.json │ └── CHEM_hate_4chan.json
引用信息
如果使用本数据集,请引用以下文献: bibtex @article{ma2025fortisavqa, title={Is AI Ready for Multimodal Hate Speech Detection? A Comprehensive Dataset and Benchmark Evaluation}, author={Xing, Rui and Chai, Qi and Ma, Jie and Tao, Jing and Wang, Pinghui and Zhang, Shuming and Wang, Xinping and Wang, Hao}, journal={arXiv preprint arXiv:2603.21686}, year={2026} }




