five

AdamMeme

收藏
arXiv2025-07-02 更新2025-07-04 收录
下载链接:
https://github.com/Lbotirx/AdamMeme
下载链接
链接失效反馈
官方服务:
资源简介:
AdamMeme是一个动态评估框架,用于评估多模态大型语言模型(mLLMs)在辨别有害表情包方面的推理能力。该框架通过多代理协作,不断更新表情包数据集,以揭示mLLMs在理解有害性方面的具体局限性。该数据集旨在帮助研究人员评估和改进mLLMs在表情包有害性理解方面的能力,以促进在线安全的应用。

AdamMeme is a dynamic evaluation framework developed to assess the reasoning abilities of multimodal large language models (mLLMs) in detecting harmful memes. Through multi-agent collaboration, the framework continuously updates the associated meme dataset to uncover the specific limitations of mLLMs in understanding the harmfulness of such content. This dataset aims to assist researchers in evaluating and enhancing the capacity of mLLMs to comprehend the harmfulness of memes, thereby advancing practical applications of online safety.
提供机构:
北京邮电大学, 香港浸会大学, 新加坡国立大学, 香港科技大学
创建时间:
2025-07-02
原始信息汇总

AdamMeme数据集概述

数据集简介

  • 名称:AdamMeme
  • 目的:用于自适应探测多模态大语言模型在有害内容上的推理能力

数据来源

数据预处理

  • 使用OCR-SAM工具擦除图像中的文本

  • 数据目录结构:

    ├── data │ └── sampled_data │ └── image │ └── ori │ └── erased ├── results └── scripts

主要功能模块

  1. 有害性挖掘

    • 执行脚本:scripts/mining.py
  2. 模型评分

    • 首先生成错误信念声明和参考答案:gen_misb.py
    • 执行评分:scoring.py --exp_name exp_name --model_name model_name
  3. 迭代优化

    • 执行脚本:refinement.py --exp_name exp_name --model_name model_name

环境依赖

  • 基于LLaVA框架
  • 其他依赖:requirements.txt
搜集汇总
数据集介绍
main_image_url
构建方式
AdamMeme数据集通过多智能体协作框架动态构建,旨在评估多模态大语言模型(mLLMs)对有害网络模因的理解能力。该框架包含三个阶段:有害性挖掘、模型评分和迭代精炼。在有害性挖掘阶段,通过矿工智能体对原始模因数据进行分类,识别不同类别的有害内容;模型评分阶段则通过评分智能体评估目标模型对模因有害性的分析能力;迭代精炼阶段则通过精炼智能体生成更具挑战性的测试样本,以揭示目标模型在理解有害性方面的具体弱点。
特点
AdamMeme数据集的特点在于其动态性和适应性,能够通过迭代更新模因数据,生成更具挑战性的测试样本,从而全面评估目标模型的有害性理解能力。数据集覆盖了多种有害性类别,包括种族、性别、宗教、国籍、残疾、动物、儿童剥削和政治等,并通过多智能体协作确保评估的可靠性和全面性。此外,数据集还引入了误信陈述(misbelief statement),进一步细化了模因有害性的分析维度。
使用方法
AdamMeme数据集的使用方法主要包括三个步骤:首先,通过有害性挖掘对原始模因数据进行分类和标注;其次,利用模型评分阶段评估目标模型对有害模因的分析能力;最后,通过迭代精炼生成更具挑战性的测试样本,进一步揭示目标模型的弱点。用户可以根据需要选择特定阶段进行评估,或利用完整框架进行全面分析。数据集适用于研究多模态大语言模型在有害内容理解方面的性能,并为在线安全应用提供模型评估支持。
背景与挑战
背景概述
AdamMeme数据集由香港浸会大学、北京邮电大学、新加坡国立大学和香港科技大学的研究团队于2025年创建,旨在动态评估多模态大语言模型(mLLMs)对有害网络模因的理解能力。随着社交媒体时代多模态模因的激增,准确识别模因中的潜在危害成为关键挑战。该数据集突破了传统静态评估的局限,通过多智能体协作框架实现模因数据的自适应更新,为研究mLLMs在种族、性别、宗教等8类社会敏感议题上的推理能力提供了系统化评估工具。其创新性体现在首次采用模型中心化评估视角,对多模态大语言模型在开放语境下的危害性分析能力进行细粒度诊断。
当前挑战
该数据集面临双重核心挑战:在领域问题层面,需解决动态演变的网络模因与静态评估体系间的根本矛盾,特别是模因通过视觉隐喻和文本双关构成的隐蔽危害性识别难题;在构建过程中,需克服多模态数据对齐、危害性标注一致性以及智能体协同评估可靠性等技术障碍。具体表现为:模因表面幽默性与深层危害性的语义鸿沟导致标注歧义,文本修改需保持视觉语义连贯性以避免评估偏差,以及多智能体在动态评估循环中需维持评分标准的时空一致性。
常用场景
经典使用场景
在社交媒体内容审核领域,AdamMeme数据集通过多智能体协作框架,为评估多模态大语言模型(mLLMs)对有害模因的识别能力提供了动态测试环境。其核心价值在于模拟模因快速演变的真实场景,通过迭代生成对抗性样本,系统性地探测模型在种族、性别、宗教等八类社会敏感议题上的推理盲区。该框架突破了传统静态数据集仅评估二元分类准确率的局限,实现了对模型细粒度认知能力的持续压力测试。
衍生相关工作
该数据集催生了三个重要研究方向:基于弱点分析的对抗训练框架MemeTrojan(Wang et al. 2025)通过反向利用AdamMeme的评估结果提升模型鲁棒性;多模态事实核查基准MFC-Bench扩展了其评估范式至虚假信息检测领域;而MetaGPT等智能体系统则借鉴了其多角色协作架构,开发出更复杂的社交内容理解系统。这些衍生工作共同推动了多模态安全研究的范式革新。
数据集最近研究
最新研究方向
随着社交媒体的蓬勃发展,多模态模因(meme)已成为网络传播的重要载体,其潜在的危害性内容识别成为多模态大语言模型(mLLMs)研究的前沿课题。AdamMeme数据集通过创新的多智能体协作框架,突破了传统静态评估的局限,实现了对mLLMs危害性推理能力的动态探测。该框架通过迭代更新挑战性样本,系统揭示了不同模型在种族、性别、宗教等8类危害性维度上的性能差异,特别是发现GPT-4o和Step系列模型在政治敏感内容识别上的卓越表现,而较小规模模型如QwQ(32B)在动物福利相关危害识别中展现惊人潜力。这一研究为社交媒体内容安全监测提供了细粒度评估工具,其动态测试机制有效应对了网络模因快速演变的特性,推动了可信AI在开放网络环境中的实际应用。
相关研究论文
  • 1
    AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on Harmfulness北京邮电大学, 香港浸会大学, 新加坡国立大学, 香港科技大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作