five

QCRI/MemeLens

收藏
Hugging Face2026-05-08 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/QCRI/MemeLens
下载链接
链接失效反馈
官方服务:
资源简介:
MemeLens是一个大规模多语言多模态的梗图理解基准数据集,包含46个分类任务,涵盖9种语言(阿拉伯语、孟加拉语、德语、英语、西班牙语、印地语、罗马尼亚语、俄语和中文)。数据集通过LLM生成的解释和LLM-as-Judge的质量评分进行了丰富。数据集结构按语言和任务组织,包含训练、测试和验证集,每个样本包含唯一的标识符、图像路径、OCR文本、分类标签、任务描述、LLM生成的解释等字段。测试集还包括LLM-as-Judge的评分和解释。

MemeLens is a large-scale multilingual multimodal meme understanding benchmark with 46 classification tasks across 9 languages (Arabic, Bengali, German, English, Spanish, Hindi, Romanian, Russian, and Chinese). The dataset is enriched with LLM-generated explanations and LLM-as-Judge quality scores. It is organized by language and task, with splits for training, testing, and validation. Each sample includes a unique identifier, image path, OCR text, classification label, task description, LLM-generated explanation, and more. The test set also includes LLM-as-Judge scores and justifications.
提供机构:
QCRI
搜集汇总
数据集介绍
main_image_url
构建方式
MemeLens是一个大规模多语言多模态模因理解基准数据集,整合了来自9种语言(阿拉伯语、孟加拉语、德语、英语、西班牙语、印地语、罗马尼亚语、俄语和中文)的46个分类任务。其构建过程通过汇聚多个现有模因数据集(如HarMeme、Multi3Hate、MIMIC等)并统一格式,为每个样本提供图像路径、OCR提取文本、分类标签及英文任务描述。为进一步增强可解释性,数据集引入了由大语言模型生成的英文和原生语言解释,并在测试集中通过GPT-5和Gemini-2.5-Pro作为评估器,对解释的信息性、清晰度、合理性和忠实度进行1-5分的自动质量评分。总计包含271,835个样本,划分为训练、验证和测试集。
特点
MemeLens的显著特点在于其多语言、多任务与多模态的深度融合。数据集覆盖了有害内容检测、仇恨言论识别、情感分析、讽刺检测、深度伪造识别、政治倾向分类等广泛任务,横跨9种语言,其中英语任务最多(23个),中文次之(6个),体现了对跨文化模因理解的全面考量。每个样本不仅包含图像和文本,还附有大语言模型生成的解释性文本,以提升可解释性和模型推理的透明度。测试集中95.6%的样本经过双模型联合评估,提供多维度质量评分,为模型性能分析和解释可靠性提供了量化参考。
使用方法
研究者可通过官方代码仓库中的下载脚本便捷获取数据集,支持按语言或具体数据集进行选择性下载,例如仅下载英语或阿拉伯语数据,或指定Hateful_en_FHM等特定子集。数据集以语言为顶层目录组织,每个子数据集包含图像文件夹及JSONL格式的train、test、val文件。在使用时,用户可直接读取JSONL文件中的字段,包括'image'路径、'text'文本、'label'标签及'task_description'任务描述等,并利用'exclamation'字段辅助模型训练与解释生成。对于测试集,还可调用'llm_judge'字段中的评估分数进行模型解释质量的分析与对比。
背景与挑战
背景概述
MemeLens是由QCRI等机构研究人员于近年构建的大规模多语言多模态模因理解基准数据集,其核心研究问题在于探索视觉语言模型对包含图像与文本的模因内容进行细粒度语义理解的能力。该数据集汇集了46项分类任务,涵盖有害性检测、情感分析、讽刺识别、性别歧视、隐喻识别等主题,横跨阿拉伯语、孟加拉语、德语、英语、西班牙语、印地语、罗马尼亚语、俄语与中文等9种语言,共计超过27万条样本。MemeLens不仅整合了既有模因数据集中的标注,还引入了大语言模型生成的自然语言解释与LLM-as-Judge质量评分机制,为多语言视觉语言模型的评估提供了统一而丰富的基准,推动了跨文化内容审核与社交媒体智能分析领域的发展。
当前挑战
MemeLens所应对的领域挑战在于模因理解的复杂多义性:模因通过图像与文本的交互传递隐晦讽刺或文化特定含义,而现有模型常难以捕捉此类多模态语义鸿沟,尤其在跨语言场景下面临标注稀缺与概念迁移困难。对于数据集构建过程,挑战体现在对来自数十个异构数据源的46项任务进行标准化整合,需处理标签体系不统一、语言多样性和数据质量差异等问题;同时,利用LLM生成多语言解释并依赖LLM-as-Judge进行质量评估,虽提升了可解释性,但模型偏见的引入与评分一致性的保障仍是亟需权衡的难题。
常用场景
经典使用场景
在社交媒体内容分析的学术领域中,MemeLens数据集因其多语言、多模态的特性而成为经典研究对象。它涵盖了来自九种语言的四十六项分类任务,包括仇恨言论检测、情感分析、隐喻识别及深度伪造鉴别等,为研究者提供了一个统一而丰富的基准平台。经典的使用场景集中于利用该数据集训练和评估视觉-语言模型在多语言环境下对梗图的感知与理解能力,从而推动跨文化、跨语言的多模态语义分析技术向前发展。
实际应用
在实际应用层面,MemeLens所涵盖的丰富任务类型使其在社交平台内容审核、虚假信息治理及网络舆情监测中展现出巨大潜力。例如,借助对仇恨言论、猥亵及暴力内容的检测能力,平台可自动识别并过滤有害梗图,维护社区安全;基于情感与意图分析模块,企业和政府机构能够实时感知公众情绪波动,制定更为精准的传播策略。此外,深度伪造和宣传性梗图的识别功能也为打击虚假信息传播提供了技术利器,助力构建清朗的网络空间。
衍生相关工作
围绕MemeLens衍生出的相关工作集中在多语言多任务视觉-语言模型的构建与优化领域。例如,研究者基于该数据集提出了一系列跨语言迁移学习方法,探索如何将资源丰富语言(如英语)中训练的模型高效迁移至低资源语言(如孟加拉语、阿拉伯语)的任务上。此外,LLM生成的解释文本被用于模型的可解释性分析,催生了结合图文推理与自然语言解释的新范式。还有工作致力于利用MemeLens上的质量评分数据,开发自动评估多模态生成模型输出质量的基准框架,推动了可信AI和负责任内容审核技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作