CrossVLAD

Name: CrossVLAD
Creator: 同济大学, 微软亚洲研究院
Published: 2025-07-10 20:40:34
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://github.com/Gwill-Z/CRAFT

下载链接

链接失效反馈

官方服务：

资源简介：

CrossVLAD是一个专门用于评估统一视觉语言模型（VLMs）跨任务对抗攻击的基准数据集。它基于MSCOCO数据集构建，并使用GPT-4辅助进行注释。数据集包含了3000张经过精心挑选的图像，涉及10个语义类别的79个变换对。CrossVLAD的构建过程采用了严格的筛选标准，确保了对象的大小限制、类别独特性、标题验证等。数据集的设计旨在模拟跨任务对抗攻击的场景，要求对抗性样本能够一致地改变目标对象在四个下游任务中的分类。CrossVLAD的引入填补了统一VLMs安全评估中的一个关键研究空白，为评估跨任务对抗攻击的成功率提供了一个全面的评估框架。

CrossVLAD is a benchmark dataset specifically designed for evaluating cross-task adversarial attacks against unified Vision-Language Models (VLMs). It is built upon the MSCOCO dataset, with annotations assisted by GPT-4. The dataset contains 3000 carefully curated images, along with 79 transformation pairs covering 10 semantic categories. The construction of CrossVLAD adopts stringent screening criteria to enforce object size constraints, category uniqueness, caption validation, and other relevant requirements. This dataset is engineered to replicate cross-task adversarial attack scenarios, wherein adversarial examples must consistently alter the classification of target objects across four downstream tasks. The introduction of CrossVLAD addresses a critical research gap in the safety assessment of unified VLMs, offering a comprehensive evaluation framework for quantifying the success rate of cross-task adversarial attacks.

提供机构：

同济大学, 微软亚洲研究院

创建时间：

2025-07-10

原始信息汇总

CRAFT数据集概述

数据集基本信息

数据集名称：CRAFT
对应论文：One Object, Multiple Lies: A Benchmark for Cross-task Adversarial Attack on Unified Vision-Language Models

数据集内容

数据集类型：代码实现（对应论文的代码实现）
功能定位：跨任务对抗攻击基准（针对统一视觉-语言模型）

当前状态

开发状态：代码整理中（尚未完全开源）
开源计划：计划开放源代码和模型

注意事项

当前版本尚未完全开放
需关注项目更新以获取完整资源

搜集汇总

数据集介绍

构建方式

CrossVLAD数据集基于MSCOCO train2017数据集精心构建，通过严格的筛选标准选取了3,000张图像样本。构建过程中采用了GPT-4辅助标注技术，为每张图像生成目标类别描述，并确保语义合理性。数据集包含79组跨10个语义类别的对象转换对（如"自行车→摩托车"），通过对象尺寸约束（10%-50%图像面积）、类别唯一性验证等质量控制手段，确保了样本的多样性和评估有效性。

特点

该数据集创新性地设计了跨任务对抗攻击评估框架，涵盖图像描述生成、目标检测、区域分类和对象定位四项核心视觉语言任务。其显著特点在于引入了CTSR-4和CTSR-3两项新颖评估指标，可量化测量对抗样本在多项任务中的同步攻击成功率。数据集通过语义合理的对象转换对和严格的空间约束，为评估统一视觉语言模型的多任务鲁棒性提供了标准化测试平台。

使用方法

使用该数据集时，研究者可通过CRAFT攻击框架生成对抗样本，系统评估模型在四项任务上的脆弱性。基准测试需依次执行：1）加载预训练的统一视觉语言模型；2）应用区域令牌定位技术聚焦目标对象；3）采用跨模态特征对齐策略优化对抗扰动；4）综合计算CTSR指标评估跨任务攻击效果。数据集支持对Florence-2、OFA等主流模型进行安全性测评，为开发防御方法提供基准参照。

背景与挑战

背景概述

CrossVLAD是由同济大学和微软亚洲研究院的研究团队于2025年提出的一个专注于评估统一视觉语言模型（VLMs）跨任务对抗攻击的基准数据集。该数据集基于MSCOCO数据集构建，并利用GPT-4辅助标注，旨在系统评估对抗样本在多种视觉语言任务中的迁移性。统一视觉语言模型因其能够通过不同指令灵活处理多种任务而受到广泛关注，但其指令驱动的特性也带来了独特的安全挑战。CrossVLAD的提出填补了该领域在跨任务对抗攻击评估方面的空白，为研究统一视觉语言模型的安全性和鲁棒性提供了重要工具。

当前挑战

CrossVLAD面临的挑战主要体现在两个方面：首先，在领域问题方面，统一视觉语言模型的跨任务对抗攻击需要解决对抗样本在多种任务（如图像描述生成、目标检测、区域分类和对象定位）中保持有效性的难题，这要求对抗扰动能够同时影响模型在不同任务中的表现；其次，在构建过程中，数据集需要确保对抗样本在不同任务间的语义一致性，同时保持视觉上的自然性，这对样本的选择和标注提出了较高要求。此外，如何设计合理的评估指标（如CTSR-4和CTSR-3）来全面衡量跨任务攻击的成功率也是一个重要挑战。

常用场景

经典使用场景

CrossVLAD数据集在视觉-语言模型（VLMs）的安全研究中扮演了重要角色，特别是在跨任务对抗攻击的评估中。该数据集通过精心设计的对抗样本，评估了VLMs在面对不同任务指令时的鲁棒性。研究人员利用CrossVLAD来测试模型在图像描述生成、目标检测、区域分类和对象定位等任务中的一致性表现，从而揭示模型在跨任务场景下的潜在漏洞。

实际应用

在实际应用中，CrossVLAD为开发更鲁棒的视觉-语言模型提供了重要参考。自动驾驶、智能城市系统等依赖VLMs的领域，需要模型在面对恶意输入时保持稳定。CrossVLAD通过模拟真实场景中的对抗攻击，帮助开发者识别和修复模型漏洞，从而提升系统在复杂环境中的可靠性。

衍生相关工作

CrossVLAD的发布催生了一系列关于VLMs安全性的研究。基于该数据集，研究者提出了多种改进的对抗攻击方法，如CRAFT框架，进一步探索了跨任务攻击的机制。同时，该数据集也激发了针对VLMs防御策略的研究，促进了视觉-语言模型安全领域的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集