Typographic-Visual-Prompt-Injection-Dataset

Hugging Face2025-09-01 更新2025-09-02 收录

下载链接：

https://huggingface.co/datasets/erjiaxiao/Typographic-Visual-Prompt-Injection-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本研究数据集用于探索跨模态生成模型中的版式视觉提示注入威胁，具体包含的数据内容和格式未在README文件中详细说明。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称：Typographic-Visual-Prompt-Injection-Dataset
许可证：MIT
相关论文：Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models
论文链接：https://arxiv.org/abs/2503.11519

研究背景

该数据集为论文《Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models》的官方数据集，专注于研究跨模态生成模型中的排版视觉提示注入威胁。

作者信息

主要作者：Hao Cheng, Erjia Xiao, Yichi Wang, Lingfeng Zhang, Qiang Zhang, Jiahang Cao, Kaidi Xu, Mengshu Sun
通讯作者：Xiaoshuai Hao, Jindong Gu, Renjing Xu
机构：The Hong Kong University of Science and Technology (Guangzhou), University of Oxford, Beijing Academy of Artificial Intelligence, Beijing University of Technology, Tsinghua University, Drexel University, X-Humanoid

引用信息

若使用本数据集，请按以下格式引用： bibtex @misc{cheng2025exploringtypographicvisualprompts, title={Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models}, author={Hao Cheng and Erjia Xiao and Yichi Wang and Lingfeng Zhang and Qiang Zhang and Jiahang Cao and Kaidi Xu and Mengshu Sun and Xiaoshuai Hao and Jindong Gu and Renjing Xu}, year={2025}, eprint={2503.11519}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.11519}, }

搜集汇总

数据集介绍

构建方式

在跨模态生成模型安全研究领域，Typographic-Visual-Prompt-Injection-Dataset通过系统化方法构建而成。研究团队采用对抗性文本叠加技术，在原始图像上植入语义冲突的排版提示，形成视觉提示注入样本。数据集涵盖多个视觉场景，通过精确控制文本位置、字体样式和语义内容，构建了具有挑战性的负样本对，为模型脆弱性分析提供了坚实基础。

特点

该数据集的核心特征在于其独特的对抗性构造范式，专注于排版视觉提示注入这一新兴威胁向量。数据集包含精心设计的图像-文本对，其中视觉元素与文本描述存在故意制造的语义偏差，能够有效揭示多模态模型的解析漏洞。样本兼具视觉自然性和语义对抗性，为评估模型在真实场景下的鲁棒性提供了重要基准。

使用方法

研究人员可利用该数据集进行跨模态生成模型的安全性评估和对抗鲁棒性研究。通过将数据集输入到文本到图像或图像到文本生成模型中，观察模型对视觉提示注入的响应行为。建议采用对比实验设计，比较模型在正常样本和对抗样本上的性能差异，从而系统分析模型的脆弱性机制并开发相应的防御策略。

背景与挑战

背景概述

跨模态生成模型作为人工智能领域的前沿研究方向，近年来在视觉与语言交互方面展现出巨大潜力。2025年由香港科技大学（广州）、牛津大学、北京智源人工智能研究院及清华大学等机构联合发布的Typographic-Visual-Prompt-Injection-Dataset，聚焦于文本-图像生成系统中的安全漏洞问题。该数据集由Hao Cheng、Erjia Xiao等学者主导构建，旨在系统探究排版视觉提示注入对多模态模型的潜在威胁，为提升生成模型的鲁棒性和安全性提供关键数据支撑。

当前挑战

该数据集致力于解决跨模态生成模型中视觉提示注入攻击的检测与防御挑战，特别是针对文本嵌入视觉信息的对抗性操纵问题。构建过程中面临多重技术难题：需要精确设计具有视觉欺骗性的排版样本，确保注入提示的自然性与隐蔽性；必须平衡攻击样本的多样性与真实性，以覆盖实际应用场景；还需建立有效的评估框架来衡量不同模型对注入攻击的脆弱性，这些挑战共同构成了数据集构建的核心难点。

常用场景

经典使用场景

在跨模态生成模型安全研究领域，该数据集主要用于评估文本到图像生成系统对排版视觉提示注入攻击的脆弱性。研究者通过向图像中添加语义冲突的文本标签，模拟恶意攻击者诱导模型生成与视觉内容不符的输出，从而系统测试多模态模型的抗干扰能力和安全性边界。

解决学术问题

该数据集有效解决了跨模态生成模型中视觉提示注入威胁的量化评估难题，为研究对抗性文本干扰对视觉语义理解的影响提供了标准化基准。通过构建语义冲突的图文配对样本，推动了多模态模型鲁棒性、安全性与可信人工智能等关键研究方向的发展，填补了视觉提示注入攻击系统性研究的空白。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于对抗训练的跨模态防御框架、视觉提示注入的检测算法以及鲁棒的多模态表示学习方法。相关研究不仅深化了对模型脆弱性的理解，还推动了《IEEE Transactions on Pattern Analysis and Machine Intelligence》等顶级期刊系列工作的诞生，为构建安全可靠的多模态人工智能系统奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集