SCAM
收藏arXiv2025-04-07 更新2025-04-09 收录
下载链接:
https://huggingface.co/datasets/BLISS-e-V/SCAM
下载链接
链接失效反馈官方服务:
资源简介:
SCAM数据集是由BLISS e.V.、柏林技术大学和Fraunhofer HHI共同创建的,是目前最大且最具多样性的现实世界印刷攻击图像数据集。包含1162张图像,涵盖数百个对象类别和攻击词汇。数据集通过社区志愿者手动标注,提供了对象和攻击标签。SCAM数据集旨在评估和改进多模态基础模型对印刷攻击的鲁棒性,特别是在自动驾驶等安全关键领域的应用。
SCAM dataset was co-created by BLISS e.V., Technische Universität Berlin and Fraunhofer HHI, and it is currently the largest and most diverse real-world printed attack image dataset to date. It contains 1,162 images covering hundreds of object categories and attack vocabulary. The dataset was manually annotated by community volunteers, providing object and attack labels. The SCAM dataset aims to evaluate and improve the robustness of multimodal foundation models against printed attacks, especially for safety-critical applications such as autonomous driving.
提供机构:
BLISS e.V., 柏林技术大学, Fraunhofer HHI
创建时间:
2025-04-07
搜集汇总
数据集介绍

构建方式
SCAM数据集通过收集现实世界中的1,162张图像构建而成,覆盖了数百种物体类别和攻击词汇。每张图像包含一个物体和一个语义无关的手写攻击词汇,攻击词汇被写在便利贴上并放置在物体旁边。此外,数据集还提供了两个变体:NoSCAM(移除攻击词汇的干净图像)和SynthSCAM(通过数字方式重新引入攻击词汇的合成图像)。所有图像经过手动标注,并通过标准化处理(如尺寸调整至512×512像素)以确保一致性。
特点
SCAM数据集是目前最大且最多样化的现实世界排版攻击数据集,包含1,162张图像、660种物体标签和206种攻击词汇,形成了1,147种独特的物体-词汇组合。其多样性远超现有数据集(如RTA-100),使其成为评估多模态基础模型鲁棒性的强大基准。此外,SCAM还通过NoSCAM和SynthSCAM变体,提供了对现实世界和合成攻击之间可转移性的实证评估。
使用方法
SCAM数据集主要用于评估视觉语言模型(VLMs)和大型视觉语言模型(LVLMs)对排版攻击的鲁棒性。对于VLMs,通过零样本分类任务计算图像与文本嵌入之间的余弦相似度来评估性能;对于LVLMs,则采用基于提示的分类任务,通过生成式回答评估其抗攻击能力。数据集和评估代码已公开在Hugging Face和GitHub上,便于研究者进行标准化测试和进一步研究。
背景与挑战
背景概述
SCAM(Subtle Character Attacks on Multimodal Models)数据集由BLISS e.V.、柏林工业大学等机构的研究团队于2025年发布,旨在评估多模态基础模型对排版攻击的鲁棒性。该数据集包含1,162张真实世界图像,涵盖数百个物体类别和攻击词汇,是目前规模最大、多样性最丰富的排版攻击数据集。SCAM的创建源于多模态模型(如CLIP、SigLIP)在医疗、自动驾驶等安全关键领域应用中暴露的脆弱性——当图像中嵌入误导性文本时,模型会因过度依赖文本特征而产生错误分类。该数据集通过系统化研究视觉-语言交互缺陷,为构建可靠的多模态AI系统提供了重要基准。
当前挑战
SCAM数据集主要面临两大挑战:领域问题方面,多模态模型对图像中文本信息的过度敏感性导致其易受排版攻击干扰,这种现象在自动驾驶等现实场景中可能引发严重后果;构建过程方面,研究者需平衡攻击的多样性与真实性,既要覆盖足够多的物体类别和攻击词汇以全面评估模型鲁棒性,又要确保攻击文本(如手写体)的自然呈现。此外,创建NoSCAM(去除攻击文本)和SynthSCAM(数字重建攻击文本)两个对照数据集时,需精确控制变量以验证合成攻击对真实攻击的模拟效果,这对数据清洗和图像处理技术提出了较高要求。
常用场景
经典使用场景
SCAM数据集作为当前最大且最多样化的真实世界排版攻击数据集,被广泛应用于评估多模态基础模型(如CLIP、SigLIP等)对图像中误导性文本的鲁棒性。其经典使用场景包括通过对比实验(如SCAM、NoSCAM和SynthSCAM三个变体)量化模型在遭受排版攻击时的性能下降,揭示模型对视觉与文本内容交互的依赖缺陷。例如,在零样本分类任务中,模型需抵抗图像中手写或合成攻击词的干扰,正确识别原始物体类别。
实际应用
SCAM的实际应用集中在安全关键领域,如自动驾驶和医疗影像分析。在自动驾驶系统中,模型可能因路牌上的误导文本(如“no parking”干扰“stop”识别)导致决策错误,而SCAM通过包含交通标志类攻击词(占比14.3%)模拟此类风险。此外,其合成的SynthSCAM变体可高效生成对抗样本,用于预训练模型的防御策略验证,降低真实场景中的数据采集成本。
衍生相关工作
SCAM推动了多模态鲁棒性研究的多个方向:一是催生了基于视觉编码器改进的防御方法(如Defense-Prefix技术);二是启发了对大型语言模型骨干(如LLaVA-34b)缓解攻击脆弱性的研究;三是为后续工作(如SceneTap的场景连贯攻击规划)提供了基准数据。相关经典研究包括PAINT、RTA-100等数据集的扩展,以及VisualPrompt-Injection等攻击方法的评估框架。
以上内容由遇见数据集搜集并总结生成



