Bordair Multimodal Prompt Injection Dataset

github2026-04-16 更新2026-04-17 收录

下载链接：

https://github.com/Josh-blythe/bordair-multimodal

下载链接

链接失效反馈

官方服务：

资源简介：

Bordair多模态提示注入数据集包含101,032个标记样本（50,516个攻击样本和50,516个良性样本），覆盖跨模态、多轮、对抗性后缀、越狱模板、间接注入、工具操作、代理和规避攻击等四种数据集版本。该数据集用于训练和评估提示注入检测器，所有样本均标记为（expected_detection: true/false），并可直接用于二元分类器。

The Bordair Multimodal Prompt Injection Dataset comprises 101,032 labeled samples, consisting of 50,516 adversarial samples and 50,516 benign samples. It features four dataset versions that cover cross-modal, multi-turn, adversarial suffix, jailbreak template, indirect injection, tool manipulation, agent and evasion attack scenarios. This dataset is designed for training and evaluating prompt injection detectors, with all samples annotated using the (expected_detection: true/false) labeling scheme and readily applicable to binary classification tasks.

创建时间：

2026-04-10

原始信息汇总

Bordair Multimodal Prompt Injection Dataset 概述

数据集基本信息

数据集名称：Bordair Multimodal Prompt Injection Dataset
样本总数：101,032 个已标注样本
攻击样本：50,516 个
良性样本：50,516 个
平衡比例：攻击与良性样本严格 1:1
主要用途：训练和评估提示注入检测器
标签字段：expected_detection: true/false
数据来源：所有攻击样本均溯源至同行评审论文或已记录的行业研究
数据格式：结构化，可直接用于二元分类器

方法论与范围

提示注入定义：嵌入在LLM输入中的文本，旨在覆盖、劫持或重定向模型行为，使其偏离操作员指定的任务。遵循 Greshake et al. 2023 (arXiv:2302.12173) 和 OWASP LLM01:2025 的定义。
范围限定：仅涵盖运行时注入（攻击者可在推理时置于模型上下文窗口中的文本）。明确排除训练时攻击、无注入成分的模型提取攻击、无特定任务劫持框架的纯越狱攻击以及不针对LLM的通用社会工程攻击。

数据集构建层次

种子载荷层（手写，共 681 个种子）：为每个攻击类别手工编写注入种子，基于同行评审论文和已记录的真实事件。每个种子均标注其学术来源和攻击参考。
程序化扩展层（v2，14,358 个样本）：使用 PyRIT v0.12.1 的 162 个越狱模板和 13 种编码转换器对种子进行扩展。包含来自已发表文献的 GCG 对抗性后缀。
跨模态传递层（v1 + v4 跨模态，35,687 个样本）：通过 7 种图像方法、4 种文档类型 × 5 种隐藏位置、6 种音频方法以及多模态组合传递注入种子。遵循 FigStep (arXiv:2311.05608) 和 CrossInject (arXiv:2504.14348) 的威胁模型。
良性样本层（50,516 个）：良性提示来自已发布的学术和行业数据集。良性多模态样本将这些文本提示与真实的图像描述、文档段落和音频转录配对。包含 130 个手写的边缘案例，在真实的良性上下文中使用攻击相关词汇以减少训练中的误报。

标签分配

所有攻击载荷：expected_detection: true
所有良性样本：expected_detection: false
标签通过构建过程分配，而非人工逐条审查。正确性保证在类别层面。
未故意引入对抗性标签噪声。

质量控制

去重：良性文本池包含 0 个重复文本。新的跨模态良性样本检查完整键重复元组。multimodal_image_document.json 中存在一个已知的重复簇（1,340 条条目），已在 benign/summary.json 中记录。
池/攻击文本重叠：零良性池文本以原文形式出现在攻击载荷文本中。
来源可追溯性：每个攻击样本都包含 attack_source 和 attack_reference 字段，指向其学术或行业来源。
可复现性：所有样本均从固定的随机种子（seed=42）确定性生成。包含生成脚本，重新运行可产生完全相同的已发布载荷。

与相关数据集的比较

数据集	样本数	模态	来源基础	与本数据集的关键差距
deepset/prompt-injections	~500	文本	社区收集	单模态，类别覆盖窄
jackhhao/jailbreak-classification	~2,600	文本	Reddit/社区越狱	仅越狱，无间接/智能体/跨模态
rubend18/ChatGPT-Jailbreak-Prompts	~79	文本	社区越狱	非常小，无良性分割
Tensor Trust	126K	文本	对抗性游戏（攻击 vs 防御）	攻击/防御框架，非注入 vs 良性二元分类
HackAPrompt	600K+	文本	竞赛条目	竞赛特定目标，无多模态传递
InjectAgent	1,054	文本	智能体工具调用场景	仅关注智能体/工具，无跨模态
本数据集	101,032	文本、图像、文档、音频	同行评审论文 + 行业研究	涵盖以上所有 + 2025 智能体类别

本数据集是唯一公开可用的、涵盖跨模态传递、智能体攻击类别以及大规模 1:1 平衡良性分割的提示注入数据集。

已知局限性

多模态攻击的文本表示：image_content、doc_content 和 audio_content 字段表示解析器将提取的内容，并非实际的图像、文档或音频二进制文件。
手写种子：v3 和 v4 类别的种子由数据集作者编写，并非从真实的攻击者基础设施收集。
静态良性池：良性文本池来自 Alpaca 和 WildChat，偏向英语和相对较短的提示。非英语良性提示覆盖有限。
无评分者间信度度量：标签通过构建分配，无人对单个样本进行标注，因此无评分者间一致性分数。
ASR 数据来自源论文：文档中引用的攻击成功率数据来自原始论文，这些论文测试的是发布时当前的模型。针对当代前沿模型的数据可能不同。
v4 类别数量较少：14 个 v4 种子类别在跨模态扩展前平均每个 20 个样本。

数据集版本

版本	生成器	攻击载荷	良性	总计	主要覆盖范围
v1	`generate_payloads.py`	23,759	23,759	47,518	跨模态分割攻击（文本+图像/文档/音频）
v2	`generate_v2_pyrit.py`	14,358	--	14,358	多轮编排、GCG 后缀、越狱模板
v3	`generate_v3_payloads.py`	187	--	187	间接注入、工具滥用、Unicode 规避、提示提取
v4	`generate_v4_payloads.py`	284	--	284	智能体攻击、内存污染、MCP、推理劫持、RAG、ASR
v4 跨模态	`generate_v4_crossmodal.py`	11,928	--	11,928	v4 种子通过文本+图像、文本+文档、文本+音频、图像+文档、三重模态传递
总计		50,516	50,516	101,032

v1：跨模态攻击载荷（23,759 攻击 + 23,759 良性）

基础注入类别：13 个。
跨模态传递方法：涵盖文本+图像、文本+文档、文本+音频、图像+文档、三重模态、四重模态组合。
图像传递方法：包括 OCR、EXIF 元数据、PNG 元数据、XMP 元数据、白色文本、隐写术、对抗性扰动。
跨模态分割策略：包括良性文本包装完整注入、跨模态分割载荷、跨模态分割权限声明与命令、跨模态上下文切换。

v2：PyRIT + nanoGCG 数据集（14,358 攻击）

生成工具：使用 PyRIT v0.12.1 和 nanoGCG v0.3.0。
覆盖方法：PyRIT 越狱模板、GCG 对抗性后缀、AutoDAN 流畅包装器、编码混淆、Crescendo 多轮攻击、组合攻击、PAIR 越狱、Skeleton Key、TAP 树搜索、多轮越狱。

良性数据集（50,516 个提示）

文本提示池：23,211 个独特文本。
来源：Stanford Alpaca、WildChat、deepset/prompt-injections、手写边缘案例。
边缘案例：覆盖 10 个词汇簇，如 ignore、override、system prompt、password 等，用于在完全良性的上下文中减少误报。
内容来源：
- 文本提示：Stanford Alpaca, WildChat, deepset, LMSYS Chatbot Arena, SPML, 手写边缘案例。
- 图像内容：MS-COCO 2017 描述, Flickr30k, 75 项精选描述池。
- 文档内容：Wikipedia EN, RedPajama arXiv 子集, 40 项段落池（年度报告、论文、法律、医疗）。
- 音频内容：LibriSpeech train-clean-100, Mozilla Common Voice 13 EN, 36 项转录池（广播、讲座、听写）。

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，构建高质量的数据集对于训练和评估提示注入检测器至关重要。Bordair多模态提示注入数据集采用分层构建方法，首先基于同行评审论文和行业研究报告手工编写了210个、187个和284个种子载荷，确保每个种子均标注了学术来源和攻击参考。随后，通过PyRIT的162个越狱模板和13种编码转换器对种子进行程序化扩展，并引入GCG对抗性后缀以增强多样性。进一步，数据集将注入种子通过7种图像方法、4种文档类型与5种隐藏位置、6种音频方法以及多模态组合进行跨模态传递，模拟真实场景中攻击文本可能通过非文本渠道输入的情况。最后，从公开学术和行业数据集中抽取良性样本，并特别设计了一组包含安全相关词汇的边界案例，以降低训练中的误报风险。整个构建过程具有确定性和可复现性，所有样本均通过固定随机种子生成。

特点

该数据集在提示注入检测领域展现出显著特色，其规模达到101,032个标注样本，攻击与良性样本严格保持1:1平衡。数据集覆盖了跨模态、多轮对话、对抗性后缀、越狱模板、间接注入、工具操纵、代理攻击及规避攻击等多种攻击类型，是当前唯一公开涵盖跨模态传递和代理攻击类别的提示注入数据集。每个攻击样本均附有攻击来源和参考文献字段，确保了数据的可追溯性。此外，数据集特别设计了一组边界良性样本，包含“忽略”、“覆盖”、“系统提示”等安全相关词汇但处于完全良性语境，有助于检测器避免基于表面关键词匹配的过拟合。数据集的跨模态攻击模拟了文本、图像、文档和音频等多种输入形式，为构建鲁棒的多模态检测系统提供了全面支持。

使用方法

该数据集专为训练和评估二进制分类器设计的提示注入检测模型而构建。使用者可直接利用数据集中提供的`expected_detection`标签进行监督学习，其中所有攻击样本标记为`true`，所有良性样本标记为`false`。数据集已结构化处理，支持按版本（v1至v4）或攻击类别加载，便于针对特定攻击类型进行模型微调。对于跨模态攻击的研究，可重点关注`image_content`、`doc_content`和`audio_content`字段，这些字段代表了从相应模态解析出的文本信号。数据集中包含的生成脚本确保了实验的可复现性，研究者可通过重新运行脚本获得完全一致的样本。在模型评估阶段，建议额外关注边界良性样本集上的性能，以检验模型是否真正学习到了注入模式而非简单的关键词匹配。

背景与挑战

背景概述

随着大型语言模型（LLM）与多模态人工智能系统的广泛应用，提示注入攻击已成为威胁其安全部署的核心挑战。Bordair多模态提示注入数据集应运而生，旨在为训练和评估提示注入检测器提供标准化基准。该数据集由专注于人工智能安全的研究团队构建，其核心研究问题聚焦于如何有效识别并防御运行时注入攻击，即攻击者通过文本、图像、文档或音频等多种输入模态嵌入恶意指令，意图劫持或重定向模型行为。通过整合来自同行评审论文与行业研究的攻击模式，并构建严格平衡的良性样本对照，该数据集为开发鲁棒的多模态注入检测算法提供了关键资源，推动了人工智能安全领域从纯文本防御向跨模态威胁感知的范式演进。

当前挑战

该数据集致力于解决的领域挑战在于多模态提示注入检测的复杂性。攻击者可将恶意载荷拆分并隐匿于不同模态中，例如通过图像元数据或文档注释传递指令，这要求检测器必须超越单一文本分析，具备跨模态语义关联与上下文理解能力。在构建过程中，主要挑战包括确保攻击样本的真实性与覆盖面，其种子载荷虽基于已发表研究手工构建，但仍可能无法完全捕捉现实攻击的全部语义变体；同时，构建大规模、无重叠的良性样本池亦存在困难，现有良性文本主要源于英文指令数据集，在语言多样性与场景覆盖上存在局限。此外，数据集以文本形式表征多模态内容，检测器学习的是提取后的文本信号，而非原始像素或声学模式，这为真实多模态管道中的端到端检测带来了泛化差距。

常用场景

经典使用场景

在人工智能安全领域，Bordair多模态提示注入数据集为训练和评估提示注入检测器提供了标准化基准。该数据集通过涵盖跨模态、多轮对话、对抗性后缀、越狱模板、间接注入、工具操纵、代理攻击及规避攻击等多种攻击类型，构建了一个规模庞大且平衡的样本集合。其最经典的使用场景在于支持二元分类器的开发，使研究者能够系统性地测试模型对复杂注入攻击的识别能力，特别是在多模态输入环境下，检测器需从文本、图像、文档及音频的混合信号中准确区分恶意与良性内容。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于其跨模态攻击样本，研究者开发了针对视觉-语言模型的联合检测框架，扩展了FigStep与CrossInject等方法的防御范围。在代理安全领域，数据集中的v4类别启发了对记忆污染与推理劫持攻击的专项检测工具。同时，该数据集的平衡结构与可追溯来源为后续研究提供了可靠基准，促进了如自适应对抗训练、多模态异常检测等方向的算法创新，并推动了行业安全标准的演进。

数据集最近研究