Typographic Visual Prompt Injection (TVPI) Dataset

Name: Typographic Visual Prompt Injection (TVPI) Dataset
Creator: 香港科技大学（广州）
Published: 2025-03-14 23:42:42
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.11519v1

下载链接

链接失效反馈

官方服务：

资源简介：

TVPI数据集是由香港科技大学（广州）的研究团队创建的，旨在评估不同生成模型在面对版式视觉提示注入攻击时的安全性。该数据集包含视觉语言感知（VLP）和图像到图像（I2I）两种类型的数据子集，每个子集都包括基础清晰图像、因素修改和不同目标威胁处理三个部分。VLP子集包含四个子任务，I2I子集包含两个子任务，涵盖了从类别、颜色、数量到大小等多个对象属性的识别，以及图像风格转换和全身姿态生成等任务。数据集通过在不同场景下设计特定的攻击目标，以全面探索版式视觉提示注入攻击的影响。

The TVPI Dataset was developed by the research team from The Hong Kong University of Science and Technology (Guangzhou), aiming to evaluate the safety of diverse generative models against layout visual prompt injection attacks. This dataset comprises two types of data subsets: Vision-Language Perception (VLP) and Image-to-Image (I2I). Each subset includes three components: baseline clear images, factor-modified samples, and various target threat handling modules. The VLP subset contains four subtasks, while the I2I subset has two subtasks, covering multiple object attribute recognition tasks including category, color, quantity and size, as well as tasks such as image style transfer and full-body pose generation. The dataset is designed with specific attack targets across different scenarios to comprehensively investigate the impacts of layout visual prompt injection attacks.

提供机构：

香港科技大学（广州）

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

Typographic Visual Prompt Injection (TVPI) 数据集的构建基于对跨模态生成模型（如视觉语言模型和图像生成模型）中视觉提示注入威胁的系统研究。该数据集包含视觉语言感知（VLP）和图像到图像（I2I）两个子类型，每个子类型由基础干净图像、视觉提示因子修改（FM）和不同目标威胁（DTT）组成。VLP子类型涵盖四个任务，I2I子类型包含两个任务，分别评估模型在不同视觉提示因子和目标语义下的表现。此外，数据集还专门设计了一个子类型用于评估闭源商业模型的脆弱性。

使用方法

TVPI 数据集的使用方法主要包括对视觉语言模型和图像生成模型的评估。研究人员可以通过该数据集测试模型在不同视觉提示因子和目标语义下的表现，评估其对抗视觉提示注入的脆弱性。具体而言，VLP任务通过攻击成功率（ASR）衡量模型输出与攻击目标的匹配程度，而I2I任务则通过CLIPScore和FID分数评估生成图像与攻击目标的语义对齐度。此外，数据集还可用于开发防御机制，如通过修改输入文本提示来减少视觉提示注入的影响。

背景与挑战

背景概述

Typographic Visual Prompt Injection (TVPI) Dataset 是由香港科技大学（广州）、北京工业大学和德雷塞尔大学等机构的研究团队于2025年提出的，旨在探索跨模态生成模型（如视觉-语言模型和图像生成模型）在面对视觉提示注入时的安全威胁。该数据集的创建背景源于当前生成模型在视觉-语言感知（VLP）和图像到图像（I2I）任务中的广泛应用，以及这些模型在面对视觉提示注入时表现出的脆弱性。通过引入TVPI数据集，研究团队系统地评估了不同生成模型在面对视觉提示注入时的表现，揭示了这一威胁的潜在影响及其背后的机制。该数据集不仅为相关领域的研究提供了重要的实验基础，还为生成模型的安全性研究提供了新的视角。

当前挑战

TVPI数据集的研究挑战主要体现在两个方面。首先，视觉提示注入对生成模型的输出产生了显著的干扰，尤其是在视觉-语言感知和图像生成任务中，模型容易受到视觉提示的误导，生成与提示语义相关的错误输出。这种干扰不仅影响了模型的性能，还可能导致潜在的安全风险。其次，在数据集的构建过程中，研究团队面临了如何设计多样化的视觉提示、如何控制提示的可见性以及如何评估不同模型对提示的敏感度等挑战。此外，由于视觉提示的复杂性和多样性，如何确保数据集的广泛适用性和代表性也是一个重要的技术难题。这些挑战不仅要求研究团队在数据集设计上具备高度的创新性，还需要在模型评估和安全性分析上进行深入探索。

常用场景

经典使用场景

Typographic Visual Prompt Injection (TVPI) Dataset 主要用于评估跨模态生成模型（如大型视觉语言模型和图像生成模型）在面对视觉提示注入攻击时的表现。该数据集通过在不同任务中注入视觉提示，模拟现实场景中的潜在安全威胁，帮助研究人员深入理解模型在面对视觉提示时的脆弱性。

解决学术问题

TVPI 数据集解决了跨模态生成模型在面对视觉提示注入时的安全性问题。通过系统性地评估模型在不同视觉提示注入场景下的表现，揭示了模型在处理视觉提示时的潜在漏洞。该数据集为研究视觉提示注入攻击的机制提供了数据支持，并为开发更安全的生成模型提供了理论依据。

实际应用

TVPI 数据集的实际应用场景包括安全评估、模型鲁棒性测试以及跨模态生成模型的防御机制开发。通过该数据集，研究人员可以评估现有模型在面对视觉提示注入时的表现，并设计相应的防御策略，以防止模型在现实应用中被恶意攻击，如误导模型生成有害或有偏见的输出。

数据集最近研究