bordair-multimodal
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/Bordair/bordair-multimodal
下载链接
链接失效反馈官方服务:
资源简介:
Bordair多模态提示注入数据集是一个包含503,358个标记样本(251,782个攻击样本和251,576个良性样本)的大规模数据集,旨在训练和评估提示注入检测器。数据集涵盖了跨模态、多轮对话、对抗性后缀、越狱模板、间接注入等多种攻击类型,攻击与良性样本比例接近1:1。数据集的构建分为四个层次:手工制作的种子载荷、通过模板和编码的程序化扩展、跨模态交付以及良性样本的收集。所有样本均标记为`expected_detection: true/false`,并可直接用于二元分类器。数据集经过严格审计,确保无标签错误、无重复样本,并且所有攻击样本均源自同行评审论文或行业研究。数据集支持文本、图像、文档、音频和视频多种模态,是目前唯一公开覆盖跨模态交付、代理攻击类别和2025-2026前沿攻击的提示注入数据集。
The Bordair multimodal prompt injection dataset is a large-scale dataset containing 503,358 labeled samples (251,782 attack samples and 251,576 benign samples), designed for training and evaluating prompt injection detectors. The dataset covers various attack types, including cross-modal, multi-turn dialogue, adversarial suffixes, jailbreak templates, and indirect injections, with a near 1:1 ratio of attack to benign samples. The dataset construction is divided into four levels: manually crafted seed payloads, programmatic expansion through templates and encoding, cross-modal delivery, and benign sample collection. All samples are labeled with `expected_detection: true/false` and can be directly used for binary classifiers. The dataset has undergone rigorous auditing to ensure no label errors, no duplicate samples, and all attack samples are sourced from peer-reviewed papers or industry research. The dataset supports multiple modalities, including text, images, documents, audio, and video, and is currently the only publicly available prompt injection dataset covering cross-modal delivery, proxy attack categories, and cutting-edge attacks from 2025-2026.
创建时间:
2026-04-11
原始信息汇总
Bordair Multimodal Prompt Injection 数据集概述
数据集基本信息
- 总样本量: 503,358 个已标注样本(251,782 个攻击样本 + 251,576 个良性样本)
- 正负样本比例: 约 1:1(审计清理后比例为 0.9992:1)
- 用途: 训练和评估提示注入检测器
- 标注方式: 所有样本带有
expected_detection: true/false标签,来源可追溯至同行评审论文或已记录的行业研究
覆盖的攻击类型
- 跨模态攻击(cross-modal)
- 多轮攻击(multi-turn)
- 对抗后缀攻击(adversarial suffix)
- 越狱模板攻击(jailbreak template)
- 间接注入攻击(indirect injection)
- 工具操纵攻击(tool manipulation)
- Agent 攻击(agentic)
- 逃避攻击(evasion)
- 推理拒绝服务攻击(reasoning DoS)
- 视频生成攻击(video generation)
- VLA 机器人攻击(VLA robotic)
- LoRA 供应链攻击(LoRA supply chain)
- 音频原生 LLM 攻击(audio-native LLM)
- RAG 优化攻击(RAG optimisation)
- MCP 跨服务器攻击(MCP cross-server)
- 编码代理攻击(coding agent)
- 序列化边界攻击(serialization boundary)
- Agent 技能供应链攻击(agent skill supply chain)
数据集构建方法
定义范围
- 提示注入定义: 嵌入在 LLM 输入中、旨在覆盖、劫持或重定向模型行为的文本
- 限定范围: 仅限运行时注入(inference time),排除训练时攻击、模型提取攻击、纯越狱、通用社交工程
四层构建方法
- 第一层 - 种子载荷(手工构建): 210 + 187 + 284 个种子,基于同行评审论文和实际事件
- 第二层 - 程序化扩展(v2,14,358 个样本): 通过 PyRIT v0.12.1 的 162 个越狱模板和 13 个编码转换器扩展
- 第三层 - 跨模态传递(v1 + v4 跨模态,35,687 个样本): 通过 7 种图像方法、4 种文档类型、6 种音频方法传递
- 第四层 - 良性样本(50,516 个): 来自 Stanford Alpaca、WildChat、deepset/prompt-injections、LMSYS Chatbot Arena 等公开数据集
标签分配
- 所有攻击样本:
expected_detection: true - 所有良性样本:
expected_detection: false - 标签按类别级别保证正确性,个体样本继承自种子和类别
良性假阳性风险控制
- 包含 130 个手工构建的边缘案例,使用攻击相关词汇(如 "ignore"、"override"、"system prompt"、"password")但处于完全良性上下文
- 覆盖 10 个词汇簇:
ignore、override、system prompt、password、instructions、jailbreak(iPhone 含义)、bypass surgery、XSS(安全话题)、prompt(相机快门)、inject(依赖注入/医学)
审计结果
- 移除 221 个良性样本:含有注入模式(从 WildChat/UltraChat 泄露)
- 移除 2 个攻击样本:包含真实 OpenAI API 密钥
- 良性数据中零注入模式残留
- 所有样本中零真实秘密残留
- 剩余审计标记(有意保留):
EMPTY_TEXT(5,138 个):跨模态攻击,文本字段有意为空或良性POSSIBLY_BENIGN_ATTACK(1,359 个):短 T2VSafetyBench 提示,孤立看无害但请求不安全视频生成
质量控制
- 去重: 良性文本池中零重复文本;跨模态良性样本检查完整键元组重复
- 池/攻击文本重叠: 零良性池文本与攻击载荷文本逐字重叠
- 来源可追溯性: 每个攻击样本携带
attack_source和attack_reference字段 - 可复现性: 所有样本从固定随机种子(seed=42)确定性生成
数据集版本
| 版本 | 生成器 | 攻击样本 | 良性样本 | 总数 | 主要覆盖范围 |
|---|---|---|---|---|---|
| v1 | generate_payloads.py |
23,759 | 23,759 | 47,518 | 跨模态分割攻击(文本+图像/文档/音频) |
| v2 | generate_v2_pyrit.py |
14,358 | -- | 14,358 | 多轮编排、GCG 后缀、越狱模板 |
| v3 | generate_v3_payloads.py |
187 | -- | 187 | 间接注入、工具滥用、Unicode 逃避、提示提取 |
| v4 | generate_v4_payloads.py |
284 | -- | 284 | Agent 攻击、内存中毒、MCP、推理劫持、RAG、ASR |
| v4 跨模态 | generate_v4_crossmodal.py |
11,928 | -- | 11,928 | v4 种子通过文本+图像/文档/音频传递 |
| v5 | generate_v5_payloads.py |
184 | -- | 184 | 2025-2026 前沿攻击 |
| v5 外部 | ingest_v5_external.py |
201,096 | -- | 201,096 | 从 OverThink、T2VSafetyBench 等摄取 |
| v5 良性 | scale_benign_v5.py |
-- | 201,060 | 201,060 | 来自 Alpaca、WildChat 等文本良性样本 |
| 总计 | 251,782 | 251,576 | 503,358 |
与相关数据集对比
该数据集是唯一公开的提示注入数据集,涵盖:
- 跨模态传递
- Agent 攻击类别(计算机使用、MCP、内存中毒、多 Agent 传染、推理劫持)
- 2025-2026 前沿攻击
- 大规模平衡良性拆分
已知局限性
- 多模态的文本表示: 使用文本表示而非实际图像/文档/音频二进制文件
- 手工种子: 遵循已发表模式但可能未捕捉所有真实变化
- 静态良性池: 偏向英文和较短提示
- 无评估者间信度: 标签按构建分配,无人工标注
- ASR 数据来自原始论文: 可能不适用于当前前沿模型
- v4 类别数量较少: 平均每个种子 20 个样本
搜集汇总
数据集介绍

构建方式
Bordair-multimodal数据集以系统化的四层架构构建,覆盖运行时提示注入攻击的全景。第一层依托同行评审论文与行业真实案例,手工撰写210至284条注入种子,确保每一条均明确携带覆盖指令的恶意意图。第二层借助PyRIT工具,将种子通过162种越狱模板与13种编码转换器进行程序化扩展,生成逾1.4万条确定性样本。第三层基于FigStep与CrossInject等威胁模型,将注入载荷嵌入图像、文档、音频等多模态信道,模拟跨模态传递的实际攻击路径。第四层从Alpaca、WildChat等公开数据集中抽取5万余条良性提示,并精心设计130条包含‘ignore’、‘override’等攻击词汇但上下文完全良性的边缘案例,以降低假阳性风险。整个数据集经严格审计,确保标签准确、无真实密钥泄露,且攻击与良性样本保持近乎1:1的均衡比例。
特点
该数据集拥有五十万余条标注样本,是当前规模最大、覆盖面最广的公开提示注入检测数据集。其独创性在于全面涵盖2025至2026年前沿攻击类别,包括推理拒绝服务、视频生成越狱、视觉-语言-动作机器人注入、LoRA供应链投毒、音频原生大模型攻击、序列化边界远程代码执行、智能体技能供应链漏洞等新兴威胁。同时,数据集支持文本、图像、文档、音频等多模态输入,并通过四种拆分策略(如将恶意指令分置于不同模态)模拟真实世界的复杂攻击场景。所有样本均附带学术论文或行业研究的源头引用,便于追踪验证。针对良性样本,特别设计了安全语义边缘案例,迫使检测器学习深层模式而非表层关键词匹配,从而有效对抗过拟合。
使用方法
本数据集专为训练与评估提示注入检测器而设计,可直接用于二分类任务。每条样本包含唯一的标识符、文本内容、expected_detection标签及模态字段。攻击样本的expected_detection恒为true,良性样本恒为false,标签通过构造逻辑而非人工标注赋予,保障了类别级别的正确性。使用者可直接加载JSON格式的数据,将text字段作为模型输入,expected_detection作为训练目标,构建基于文本特征的分类器。对于多模态场景,image_content、doc_content和audio_content字段记录了解析器从对应信道提取的文本表示,便于训练跨模态检测模型。数据集已被划分为多个版本(v1至v5),每个版本聚焦不同攻击技术,用户可根据需求选择特定子集进行微调或评估。所有生成脚本附带固定随机种子,确保结果完全可复现。
背景与挑战
背景概述
Bordair-multimodal数据集由安全研究团队于2026年构建,旨在应对大规模语言模型(LLM)在推理阶段面临的提示注入威胁。该数据集汇集了503,358个标注样本,涵盖跨模态、多轮对话、对抗性后缀、越狱模板、间接注入、工具操纵、智能体攻击及前沿攻击(如推理拒绝服务、视频生成越狱、机器人注入)等二十余类攻击向量,攻击样本与良性样本严格1:1平衡。数据集基于Greshake等人(2023)对提示注入的定义,聚焦运行时注入,并排除了训练时攻击与纯粹越狱,其构建方法融合了手工种子、程序化模板扩展及跨模态递送策略,为提示注入检测器的训练与评估提供了迄今为止规模最大、覆盖最广的基准资源。
当前挑战
该数据集所解决的领域核心挑战在于,现有提示注入防御方案多针对单一模态或简单文本攻击,难以应对跨模态、多步骤及智能体级注入的复杂威胁。构建过程中面临的关键挑战包括:确保攻击样本的真实性与可溯源性,需从经过同行评审的论文与行业记录中提取种子,并剔除可能被误读为良性请求的歧义项;跨模态攻击的文本化表征限制了检测器对像素级或声学级注入模式的学习;良性样本需精心设计边缘案例以避免模型对安全相关词汇的过拟合,同时需从公开数据集中剔除包含注入模式的污染条目;最终通过系统审计保证了标签一致性、无重复文本及无真实凭证泄露,并提供了可复现的生成脚本以支持后续研究。
常用场景
经典使用场景
在大型语言模型安全评估领域,Bordair-multimodal数据集被广泛应用于训练和评测提示注入检测器。该数据集涵盖跨模态、多轮对话、对抗性后缀、越狱模板、间接注入、工具操控、智能体攻击、规避策略、推理拒绝服务、视频生成、具身智能机器人、低秩适配供应链、音频原生大模型、检索增强生成优化、模型上下文协议跨服务器、编码智能体、序列化边界以及智能体技能供应链等近二十种攻击类型,为构建二元分类器提供了五十余万条平衡标注样本。研究者通常利用该数据集训练模型识别恶意输入中的越狱指令与隐藏提示,评估检测器在面对多样化攻击向量时的鲁棒性与泛化能力。
解决学术问题
该数据集有效填补了现有提示注入研究在跨模态攻击覆盖与规模化平衡样本方面的空白。学术研究中长期存在的核心问题包括:如何系统性地收集涵盖图像元数据隐藏、文档注释植入、音频隐写等多通道传递方式的攻击样本;如何构造数量充足、类别均衡的正常良性样本以降低分类器的假阳性误报;以及如何确保证据来源的可追溯性与类别级标注的正确性。通过引入基于同行评审论文的种子模板、程序化扩展生成与严格审计流程,Bordair-multimodal为提示注入检测领域提供了可复现、可扩展的基准数据集,推动了对抗性鲁棒性研究的量化评估与标准化进程。
衍生相关工作
基于Bordair-multimodal数据集,学术界涌现了一系列延伸研究工作。研究者们将其作为基准开发了多层次协作式检测框架,通过组合语义分析器与元数据扫描器提升对隐身注入的识别精度。另有工作针对数据集中的跨模态攻击类别,提出了基于对比学习的多通道特征融合方法,有效区分正常指令与隐藏在文档注释中的越狱提示。此外,该数据集还催生了针对智能体供应链攻击的专用防御策略,利用其涵盖的模型上下文协议跨服务器攻击样本,设计出基于调用链追踪的异常行为检测算法。这些衍生工作共同推动了提示注入检测从单一文本分类向多模态、多场景综合防御体系的演进。
以上内容由遇见数据集搜集并总结生成



