Bordair Multimodal Prompt Injection Dataset

github2026-04-10 更新2026-04-12 收录

下载链接：

https://github.com/Josh-blythe/bordair-multimodal-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Bordair多模态提示注入数据集包含62,063个标记样本（38,304个攻击样本和23,759个良性样本），覆盖跨模态、多轮、对抗性后缀、越狱模板、间接注入、工具操纵和规避攻击等多种攻击类型。数据集旨在训练和评估提示注入检测器，所有样本均标记（`expected_detection: true/false`），来源可追溯到同行评审论文或行业研究，并结构化以便直接用于二元分类器。

The Bordair Multimodal Prompt Injection Dataset comprises 62,063 labeled samples, consisting of 38,304 adversarial samples and 23,759 benign samples. It encompasses multiple attack categories including cross-modal, multi-turn, adversarial suffix, jailbreak template, indirect injection, tool manipulation, and evasion attacks. This dataset is intended for the training and evaluation of prompt injection detectors, with every sample annotated with the tag `expected_detection: true/false`. All sample sources are traceable to peer-reviewed academic papers or industrial research, and the dataset is structured to enable direct utilization in binary classifiers.

创建时间：

2026-04-10

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，Bordair多模态提示注入数据集的构建采用了系统化方法，通过三个版本逐步扩展攻击类型与模态覆盖。v1版本聚焦跨模态攻击，利用生成脚本将13类基础注入种子与文本、图像、文档及音频等多种模态结合，并应用了包括分割注入与权威伪装在内的多种策略，同时构建了等量良性样本以形成平衡的二元分类基准。v2版本借助PyRIT框架与nanoGCG工具，生成了涵盖单轮越狱模板、多轮编排攻击及对抗性后缀的多样化攻击载荷。v3版本则进一步纳入了间接注入与工具滥用等前沿攻击手法。整个构建过程严格溯源至同行评议论文与行业研究报告，确保了数据来源的可靠性与时效性。

使用方法

该数据集专为训练与评估提示注入检测模型而设计，其结构化格式便于直接应用于二元分类任务。研究人员可将样本按版本或攻击类别划分，用于构建监督学习模型，以识别跨模态攻击中的恶意意图。在模型评估阶段，可利用数据集中包含的多轮对话攻击样本来测试检测器在连续上下文中的鲁棒性，或使用对抗性后缀样本来验证模型对异常令牌序列的敏感性。此外，数据集中详尽的攻击分类与来源标注，为进行细粒度的攻击类型分析与检测性能归因提供了便利，支持针对特定攻击家族（如GCG后缀或Crescendo多轮攻击）的专项防御研究。

背景与挑战

背景概述

随着多模态大语言模型在人工智能领域的广泛应用，其面临的安全威胁日益凸显，尤其是提示注入攻击。Bordair多模态提示注入数据集由Gray Swan AI等机构的研究人员于2024年构建，旨在系统性地涵盖跨模态、多轮对话、对抗性后缀等多种攻击向量。该数据集包含62,063个标注样本，其中攻击样本38,304个，良性样本23,759个，覆盖了文本、图像、文档和音频等多种输入模态。其核心研究问题在于如何有效检测和防御针对多模态AI系统的复杂提示注入攻击，为相关安全模型的训练与评估提供了关键基准，显著推动了AI安全领域的研究进展。

当前挑战

该数据集旨在解决的领域挑战在于多模态提示注入检测的复杂性，攻击者通过跨模态拆分、编码混淆、对抗性扰动等手段，使得恶意载荷难以被传统单模态检测器识别。构建过程中的挑战包括：一是攻击样本的多样性与真实性模拟，需整合来自学术论文与行业研究的已验证攻击方法；二是良性样本的平衡构建，需确保其模态分布与攻击样本完全匹配以避免检测偏差；三是数据标注的准确性，要求所有样本均明确标注检测预期并严格溯源，以保障数据集的可靠性与实用性。

常用场景

经典使用场景

在人工智能安全领域，Bordair多模态提示注入数据集为训练和评估提示注入检测器提供了标准化基准。该数据集通过整合跨模态、多轮对话、对抗性后缀等多种攻击向量，模拟了真实场景中复杂且隐蔽的注入策略。研究者利用其丰富的标注样本，能够系统性地开发和验证检测模型，从而提升多模态大语言模型对恶意指令的识别与防御能力。

解决学术问题

该数据集有效解决了多模态环境下提示注入攻击的系统性分类与检测难题。通过涵盖文本、图像、文档和音频等多种模态的组合攻击，它帮助学术界深入理解跨模态攻击的传递机制与隐蔽特性。其结构化的标注体系为构建鲁棒的二元分类器提供了可靠数据基础，推动了对抗性机器学习与AI安全交叉领域的方法创新。

实际应用

在实际应用中，该数据集被广泛用于增强商业AI系统的安全防护能力。企业可基于其构建的检测模型，集成到聊天机器人、内容审核平台及自动化工作流中，以实时识别并阻断恶意注入指令。此外，安全团队能够利用数据集中的攻击模式进行红队演练，评估现有防御体系的脆弱性，从而制定更有效的安全策略。

数据集最近研究