AdamMeme

Name: AdamMeme
Creator: 北京邮电大学, 香港浸会大学, 新加坡国立大学, 香港科技大学
Published: 2025-07-02 21:32:30
License: 暂无描述

arXiv2025-07-02 更新2025-07-04 收录

下载链接：

https://github.com/Lbotirx/AdamMeme

下载链接

链接失效反馈

官方服务：

资源简介：

AdamMeme是一个动态评估框架，用于评估多模态大型语言模型(mLLMs)在辨别有害表情包方面的推理能力。该框架通过多代理协作，不断更新表情包数据集，以揭示mLLMs在理解有害性方面的具体局限性。该数据集旨在帮助研究人员评估和改进mLLMs在表情包有害性理解方面的能力，以促进在线安全的应用。

AdamMeme is a dynamic evaluation framework developed to assess the reasoning abilities of multimodal large language models (mLLMs) in detecting harmful memes. Through multi-agent collaboration, the framework continuously updates the associated meme dataset to uncover the specific limitations of mLLMs in understanding the harmfulness of such content. This dataset aims to assist researchers in evaluating and enhancing the capacity of mLLMs to comprehend the harmfulness of memes, thereby advancing practical applications of online safety.

提供机构：

北京邮电大学, 香港浸会大学, 新加坡国立大学, 香港科技大学

创建时间：

2025-07-02

原始信息汇总

AdamMeme数据集概述

数据集简介

名称：AdamMeme
目的：用于自适应探测多模态大语言模型在有害内容上的推理能力

数据来源

数据预处理

使用OCR-SAM工具擦除图像中的文本
数据目录结构：

├── data │ └── sampled_data │ └── image │ └── ori │ └── erased ├── results └── scripts

主要功能模块

有害性挖掘
- 执行脚本：scripts/mining.py
模型评分
- 首先生成错误信念声明和参考答案：gen_misb.py
- 执行评分：scoring.py --exp_name exp_name --model_name model_name
迭代优化
- 执行脚本：refinement.py --exp_name exp_name --model_name model_name

环境依赖

基于LLaVA框架
其他依赖：requirements.txt

搜集汇总

数据集介绍

构建方式

AdamMeme数据集通过多智能体协作框架动态构建，旨在评估多模态大语言模型（mLLMs）对有害网络模因的理解能力。该框架包含三个阶段：有害性挖掘、模型评分和迭代精炼。在有害性挖掘阶段，通过矿工智能体对原始模因数据进行分类，识别不同类别的有害内容；模型评分阶段则通过评分智能体评估目标模型对模因有害性的分析能力；迭代精炼阶段则通过精炼智能体生成更具挑战性的测试样本，以揭示目标模型在理解有害性方面的具体弱点。

特点

AdamMeme数据集的特点在于其动态性和适应性，能够通过迭代更新模因数据，生成更具挑战性的测试样本，从而全面评估目标模型的有害性理解能力。数据集覆盖了多种有害性类别，包括种族、性别、宗教、国籍、残疾、动物、儿童剥削和政治等，并通过多智能体协作确保评估的可靠性和全面性。此外，数据集还引入了误信陈述（misbelief statement），进一步细化了模因有害性的分析维度。

使用方法

AdamMeme数据集的使用方法主要包括三个步骤：首先，通过有害性挖掘对原始模因数据进行分类和标注；其次，利用模型评分阶段评估目标模型对有害模因的分析能力；最后，通过迭代精炼生成更具挑战性的测试样本，进一步揭示目标模型的弱点。用户可以根据需要选择特定阶段进行评估，或利用完整框架进行全面分析。数据集适用于研究多模态大语言模型在有害内容理解方面的性能，并为在线安全应用提供模型评估支持。

背景与挑战

背景概述

AdamMeme数据集由香港浸会大学、北京邮电大学、新加坡国立大学和香港科技大学的研究团队于2025年创建，旨在动态评估多模态大语言模型（mLLMs）对有害网络模因的理解能力。随着社交媒体时代多模态模因的激增，准确识别模因中的潜在危害成为关键挑战。该数据集突破了传统静态评估的局限，通过多智能体协作框架实现模因数据的自适应更新，为研究mLLMs在种族、性别、宗教等8类社会敏感议题上的推理能力提供了系统化评估工具。其创新性体现在首次采用模型中心化评估视角，对多模态大语言模型在开放语境下的危害性分析能力进行细粒度诊断。

当前挑战

该数据集面临双重核心挑战：在领域问题层面，需解决动态演变的网络模因与静态评估体系间的根本矛盾，特别是模因通过视觉隐喻和文本双关构成的隐蔽危害性识别难题；在构建过程中，需克服多模态数据对齐、危害性标注一致性以及智能体协同评估可靠性等技术障碍。具体表现为：模因表面幽默性与深层危害性的语义鸿沟导致标注歧义，文本修改需保持视觉语义连贯性以避免评估偏差，以及多智能体在动态评估循环中需维持评分标准的时空一致性。

常用场景

经典使用场景

在社交媒体内容审核领域，AdamMeme数据集通过多智能体协作框架，为评估多模态大语言模型（mLLMs）对有害模因的识别能力提供了动态测试环境。其核心价值在于模拟模因快速演变的真实场景，通过迭代生成对抗性样本，系统性地探测模型在种族、性别、宗教等八类社会敏感议题上的推理盲区。该框架突破了传统静态数据集仅评估二元分类准确率的局限，实现了对模型细粒度认知能力的持续压力测试。

衍生相关工作

该数据集催生了三个重要研究方向：基于弱点分析的对抗训练框架MemeTrojan（Wang et al. 2025）通过反向利用AdamMeme的评估结果提升模型鲁棒性；多模态事实核查基准MFC-Bench扩展了其评估范式至虚假信息检测领域；而MetaGPT等智能体系统则借鉴了其多角色协作架构，开发出更复杂的社交内容理解系统。这些衍生工作共同推动了多模态安全研究的范式革新。

数据集最近研究