MemeLens

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/QCRI/MemeLens

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言模因（meme）数据集集合，包含多种配置，针对不同语言和任务设计。每个配置都包含训练集、验证集和测试集，并指定了相应的文件路径。数据集信息部分详细描述了每个配置的特征，包括ID、图像、文本、标签、任务描述、解释以及多种质量指标（如信息量、清晰度、合理性、忠实度和LLM判断）。各数据分割部分提供了字节数和示例数量。该数据集适用于有害内容检测、仇恨言论识别、性别歧视分析、情感分类等与社交媒体相关的研究任务。

创建时间：

2026-03-29

原始信息汇总

MemeLens 数据集概述

基本信息

数据集名称: MemeLens
发布者: QCRI
许可证: MIT
数据集地址: https://huggingface.co/datasets/QCRI/MemeLens

数据集结构

该数据集包含多个配置（config），每个配置对应一个特定的任务、语言和来源数据集。所有配置的数据均划分为训练集（train）、验证集（validation）和测试集（test）。

配置列表

Harmful_Covid_en__HarMeme
Harmful_en__HarMeme
Hateful_ar__Prop2Hate-Meme
Hateful_bn__MUTE
Hateful_de__Multi3Hate
Hateful_en_FHM
Hateful_en__MIMIC_Islamophpbia
Hateful_en__MMHS
Hateful_en__Multi3Hate
Hateful_es__Multi3Hate
Hateful_hi__Multi3Hate
Hateful_zh__Multi3Hate
Misogyny_Categories_hi_en__MIMIC2024
Misogyny_hi_en__MIMIC2024
Target_Covid_en__HarMeme
Target_en__HarMeme
abuse_bn__BanglaAbuseMeme
deepfake_ro__RoMemes
emotion_ro__RoMemes
humour_en__memotion
intention_detection_en__MET_Meme
intention_detection_zh__MET_Meme
metaphor_occurrence_en__MET_Meme
metaphor_occurrence_zh__MET_Meme
misogynous_en__MAMI
motivational_en__memotion
objectification_en__MAMI
offensive_en__memotion
offensiveness_detection_en__MET_Meme
offensiveness_detection_zh__MET_Meme
overall_sentiment_en__memotion
political_ro__RoMemes
propoganda_ar_ArMeme
sarcasm_bn__BanglaAbuseMeme
sarcasm_en__memotion
sentiment_bn__BanglaAbuseMeme
sentiment_category_en__MET_Meme
sentiment_category_zh__MET_Meme
sentiment_degree_en__MET_Meme
sentiment_degree_zh__MET_Meme
sentiment_ro__RoMemes
shaming_en__MAMI
stereotype_en__MAMI
toxic_ru__Toxic_Memes_Detection_Dataset
violence_en__MAMI
vulgar_bn__BanglaAbuseMeme

数据特征

每个配置的数据具有统一的结构特征（features），包含以下字段：

id: 样本标识符（字符串）
image: 图像数据
text: 文本内容（字符串）
label: 标签（字符串）
task_description: 任务描述（字符串）
explanation: 解释（字符串）
native_label: 原始标签（字符串）
native_task_description: 原始任务描述（字符串）
native_explanation: 原始解释（字符串）
informativeness: 信息性评分（浮点数）
clarity: 清晰度评分（浮点数）
plausibility: 合理性评分（浮点数）
faithfulness: 忠实度评分（浮点数）
llm_judge: 大语言模型判断结果（字符串）

任务与语言覆盖

任务类型: 涵盖有害性检测、仇恨言论检测、厌女症检测、目标识别、滥用检测、深度伪造检测、情感分析、意图检测、隐喻检测、冒犯性检测、宣传检测、讽刺检测、毒性检测等多种多模态分类任务。
语言覆盖: 包括英语（en）、阿拉伯语（ar）、孟加拉语（bn）、德语（de）、西班牙语（es）、印地语（hi）、中文（zh）、罗马尼亚语（ro）、俄语（ru）等多种语言。

数据规模示例（部分配置）

Harmful_Covid_en__HarMeme: 总样本量 3,536 条，数据集大小约 531.5 MB。
Harmful_en__HarMeme: 总样本量 3,468 条，数据集大小约 154.6 MB。
Hateful_ar__Prop2Hate-Meme: 总样本量 3,061 条，数据集大小约 197.9 MB。
Hateful_bn__MUTE: 总样本量 4,156 条，数据集大小约 578.0 MB。
Hateful_en_FHM: 总样本量 11,039 条，数据集大小约 3.81 GB。
Hateful_en__MMHS: 总样本量 59,252 条，数据集大小约 2.89 GB。

搜集汇总

数据集介绍

构建方式

在数字媒体与自然语言处理交叉领域，MemeLens数据集通过系统化整合多个现有模因数据集构建而成。其构建过程涉及从多样化的在线平台收集图像与文本结合的模因样本，并依据特定任务如仇恨言论检测、情感分析等进行精细标注。数据集采用统一的架构，将原始数据转化为标准化的特征字段，确保每个样本包含图像、文本、标签及解释性元数据，并通过划分训练、验证与测试集支持机器学习模型的开发与评估。

特点

MemeLens数据集展现出显著的多语言与多任务特性，覆盖英语、阿拉伯语、孟加拉语、德语、西班牙语、印地语、中文等多种语言，囊括仇恨内容、有害信息、情感分类、隐喻识别等丰富任务维度。每个样本不仅提供基础标签，还包含任务描述、解释文本及质量评估指标，如信息性、清晰度与忠实度，增强了数据的可解释性与可靠性。这种结构支持跨语言与跨任务的对比研究，为模因理解提供了全面而细致的资源基础。

使用方法

研究者可通过HuggingFace平台直接加载MemeLens数据集，利用其预定义的配置名称选择特定语言或任务子集，例如'Hateful_en__Multi3Hate'用于英语仇恨内容检测。数据集以标准分割形式提供，便于直接用于模型训练、验证与测试。用户可结合图像与文本特征，开发多模态分类或解释生成模型，同时利用元数据字段进行深入分析，如评估解释质量或探索跨文化模因传播模式，推动社交媒体内容安全与计算语言学的前沿探索。

背景与挑战

背景概述

MemeLens数据集诞生于数字媒体时代，旨在应对网络模因（meme）内容理解的复杂挑战。该数据集由多个研究机构协同构建，整合了来自不同语言和文化背景的模因数据，涵盖了仇恨言论、有害内容、情感分析等多个维度。其核心研究问题聚焦于多模态内容的理解与分类，特别是针对模因中隐含的负面或有害信息的自动检测。这一数据集的建立，为社交媒体内容审核、情感计算以及跨文化传播研究提供了重要的数据支持，推动了自然语言处理与计算机视觉交叉领域的发展。

当前挑战

MemeLens数据集所解决的领域问题在于模因内容的多模态理解，其挑战包括图像与文本的语义融合、文化背景的差异解读以及讽刺、隐喻等修辞手法的识别。构建过程中，研究人员面临数据标注的主观性难题，不同语言和文化背景下的标注一致性难以保证，同时模因的快速演变和多样性增加了数据收集与整理的复杂性。此外，确保数据集的代表性和平衡性，避免偏见放大，也是构建过程中需要克服的关键挑战。

常用场景

经典使用场景

在多媒体内容理解领域，MemeLens数据集为研究者提供了丰富的多模态分析素材，其经典使用场景集中于仇恨言论与有害内容的自动检测。通过整合图像与文本信息，该数据集支持开发先进的机器学习模型，以识别网络迷因中隐含的恶意意图，尤其在跨语言环境下如英语、阿拉伯语、孟加拉语等，促进了多语言仇恨内容检测技术的演进。

解决学术问题

该数据集有效解决了多媒体内容安全中的关键学术问题，包括多模态仇恨言论的细粒度分类、跨文化语境下的语义歧义解析以及有害迷因的自动化识别挑战。通过提供详尽的标注与解释性信息，MemeLens推动了多模态自然语言处理与计算机视觉的交叉研究，为理解网络迷因的社会影响提供了实证基础，并助力于构建更公平、可解释的内容审核系统。

衍生相关工作

基于MemeLens数据集，学术界衍生了一系列经典研究工作，例如多模态Transformer架构的优化、跨语言仇恨检测模型的迁移学习策略以及可解释人工智能在内容审核中的集成。这些工作不仅推动了如HarMeme、Multi3Hate等数据集的进一步扩展，还催生了针对特定语言如中文、印地语的专项研究，为全球网络内容分析提供了方法论与工具链的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集