MEL Adversarial Example Dataset

Name: MEL Adversarial Example Dataset
Creator: 北京大学, 杭州智源研究院有限公司, 中国机械科学研究总院, 北京大数据先进研究院
Published: 2025-08-21 19:57:37
License: 暂无描述

arXiv2025-08-21 更新2025-11-25 收录

下载链接：

https://anonymous.4open.science/r/MEL-Robustness-90A5/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是首个针对多模态实体链接（MEL）模型对抗鲁棒性的评估数据集，旨在解决现有MEL模型在视觉对抗攻击下的鲁棒性不足问题。该数据集基于五个常见MEL基准数据集构建，包括Wikidata-MEL、Richpedia-MEL、WikiDiverse、WIKIPerson和M3EL，覆盖了多种对抗攻击场景，如图像到文本（I2T）和图像+文本到文本（IT2T）等任务。数据集通过引入对抗样本，评估了现有MEL模型的鲁棒性，并为未来加强多模态系统在对抗环境中的鲁棒性研究奠定了基础。

This dataset is the first evaluation dataset for the adversarial robustness of multimodal entity linking (MEL) models, aiming to address the insufficient robustness of existing MEL models under visual adversarial attacks. Constructed based on five mainstream MEL benchmark datasets including Wikidata-MEL, Richpedia-MEL, WikiDiverse, WIKIPerson and M3EL, it covers various adversarial attack scenarios and tasks such as image-to-text (I2T) and image+text-to-text (IT2T). The dataset evaluates the robustness of existing MEL models by introducing adversarial samples, and lays a solid foundation for future research on enhancing the adversarial robustness of multimodal systems in adversarial environments.

提供机构：

北京大学, 杭州智源研究院有限公司, 中国机械科学研究总院, 北京大数据先进研究院

创建时间：

2025-08-21

搜集汇总

数据集介绍

构建方式

在多媒体实体链接研究领域，对抗样本的构建成为评估模型鲁棒性的关键环节。MEL对抗样本数据集基于五个标准MEL基准数据集（Wikidata-MEL、Richpedia-MEL、WikiDiverse、WIKIPerson和M3EL），采用梯度驱动的白盒攻击方法生成。具体通过投影梯度下降、自动投影梯度下降和Carlini-Wagner攻击算法，在视觉输入中注入人眼难以察觉的扰动，同时保持图像语义完整性。攻击强度分为常规与强化两个等级，分别控制扰动幅度与置信度阈值，确保生成样本既具欺骗性又符合视觉一致性要求。

特点

该数据集作为首个专注于多媒体实体链接对抗鲁棒性的基准资源，其突出特点在于全面覆盖双模态任务场景。数据集同时包含图像到文本与图文结合到文本两种实体链接任务，并整合了传统MEL模型与多模态大语言模型的评估框架。样本设计采用多层级攻击策略，通过余弦相似度计算与交叉熵损失优化，精确模拟真实场景中的语义偏移现象。特别值得注意的是，数据集中文本模态的上下文信息被证明能有效缓解视觉对抗扰动的影响，这为研究跨模态防御机制提供了重要线索。

使用方法

该数据集主要用于系统评估多媒体实体链接模型在对抗环境下的稳定性。研究人员可通过加载预生成的对抗样本，分别测试模型在纯净输入与扰动输入下的性能差异。评估流程包含两个核心环节：对于图像到文本任务，需计算图像嵌入与候选实体文本嵌入的相似度矩阵；对于图文结合任务，则需融合视觉与文本特征后执行实体消歧。数据集支持端到端测试管道，用户既可复现论文中的基准实验结果，也能验证新型防御算法的有效性，为提升多模态系统在实际部署中的可靠性提供量化依据。

背景与挑战

背景概述

随着互联网多模态数据的爆炸式增长，多模态实体链接技术逐渐成为连接视觉内容与结构化知识的关键桥梁。MEL对抗样本数据集由北京大学等机构的研究团队于2025年构建，作为首个系统性探索多模态实体链接模型对抗鲁棒性的专项数据集，其核心研究聚焦于评估视觉对抗攻击对图像-文本及图文融合实体链接任务的影响。该数据集基于五个主流多模态基准构建，通过引入梯度白盒攻击生成对抗样本，填补了多模态实体链接领域在对抗鲁棒性研究方面的空白，为构建安全可靠的多模态系统提供了重要实证基础。

当前挑战

该数据集致力于解决多模态实体链接模型在真实场景中面临的视觉对抗干扰问题。具体挑战包括：模型在图像单模态输入时易受投影梯度下降等攻击导致的语义偏移，以及在图文融合任务中跨模态对齐结构对局部扰动的敏感性。构建过程中的技术挑战主要体现为对抗样本生成的复杂性，需在保持视觉不可感知性的前提下，通过参数化控制攻击强度，并协调多基准数据集间的语义一致性，同时确保生成的对抗样本能有效暴露模型在实体消歧与跨模态匹配环节的脆弱性。

常用场景

经典使用场景

在多媒体实体链接研究领域，MEL Adversarial Example Dataset 作为首个系统性评估视觉对抗攻击影响的基准数据集，主要应用于测试模型在图像到文本及图文结合到文本两种核心任务中的鲁棒性。该数据集通过引入PGD、APGD和CW等经典对抗攻击方法，模拟现实场景中图像遭受噪声干扰或恶意篡改的情况，为评估多模态模型的抗干扰能力提供了标准化实验环境。

衍生相关工作

基于该数据集衍生的LLM-RetLink方法开创了检索增强与大语言模型融合的新范式，后续研究相继提出动态知识注入、跨模态对抗训练等创新方案。这些工作显著提升了多模态实体链接在开放域环境下的适应能力，为构建下一代具备抗干扰能力的多模态基础模型奠定了技术基础。

数据集最近研究