prompt-injection-defender-dataset-v2

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/hlyn/prompt-injection-defender-dataset-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Prompt Injection Defender Dataset (V2) 是一个专为训练 System-2 生成式 AI 安全判断模型设计的偏好学习语料库。该数据集采用 ORPO（Odds Ratio Preference Optimization）算法，旨在教导大型语言模型如何深思熟虑、分析并明确标记用户输入中的提示注入、越狱和对抗性攻击。数据集经过重新构建，解决了如 Axolotl 等工具中的格式限制问题。数据集结构包括三个主要字段： - `system` (字符串)：严格的元指令，指导模型执行 System-2 安全解析。 - `chosen` (字典列表)：优选的安全对话轮次，包含两个条目（用户和助理角色），助理通过深度推理成功阻止或标记对抗性载荷。 - `rejected` (字典列表)：对抗性或失败的对话轮次，包含相同的用户载荷与有缺陷的助理响应（如未能检测注入或执行越狱）。数据集包含训练集（2,728 个样本）和评估集（304 个样本），适用于训练模型在推理时输出 System-2 链式思考协议，并生成严格的验证 JSON 对象。

创建时间：

2026-03-31

原始信息汇总

Prompt Injection Defender Dataset - Version 2 数据集概述

数据集基本信息

数据集名称：Prompt Injection Defender Dataset - Version 2
托管地址：https://huggingface.co/datasets/hlyn/prompt-injection-defender-dataset-v2
版本：Version 2 (V2)
类型：偏好学习语料库
设计目的：专门用于训练 System-2 生成式 AI 安全裁判模型，以识别、分析和标记用户输入中的提示注入、越狱和对抗性攻击。

数据集结构与特征

数据集包含以下特征字段：

system (字符串)：包含指示裁判执行 System-2 安全解析的严格元指令。
chosen (字典列表)：首选的安全对话轮次。包含恰好两个项目：[{role: "user"}, {role: "assistant"}]。助手利用深度推理并成功阻止/标记对抗性载荷。
rejected (字典列表)：对抗性或失败的对话轮次。包含完全相同的用户载荷，但配对的是一个有缺陷的助手响应（例如，未能检测到注入或执行了越狱）。

数据规模与划分

总下载大小：9,642,063 字节
总数据集大小：19,439,933 字节
划分详情：
- 训练集 (train)：2,728 个样本，17,504,367 字节
- 评估集 (eval)：304 个样本，1,935,566 字节

关键技术改进

Axolotl / PyArrow 兼容性：数据集严格断言对话轮次配对（用户 -> 助手）为偶数。系统提示已从对话元组中剥离，放置到原生的 "system" 键映射中，以保持 chat_template.argilla 加载器的对话完整性。
分离的系统节点：元指令已从对话轮次数组中移除，确保了工具（如 Axolotl）的格式兼容性，解决了早期版本因系统提示穿插在对话元组中而导致的 invalid number of turns 错误。

预期输出格式与推理

基于此数据集训练的模型预期采用 System-2 思维链协议输出响应，在发出严格的验证 JSON 对象之前输出推理过程。 推理时期望的确切格式： xml <think>

推理步骤一...
推理步骤二... </think> {"analysis": "分析结论", "verdict": "BLOCK"}

使用方式

该数据集原生集成于 Axolotl。在配置 YAML 文件中使用以下数据映射器块即可通过 ORPO 算法开始微调，该配置会自动继承 system 键。 yaml datasets:

path: hlyn/prompt-injection-defender-dataset-v2 type: chat_template.argilla split: train eval_datasets:
path: hlyn/prompt-injection-defender-dataset-v2 type: chat_template.argilla split: eval

搜集汇总

数据集介绍

构建方式

在生成式人工智能安全领域，prompt-injection-defender-dataset-v2数据集采用偏好学习范式构建，专门服务于系统二安全判官模型的训练。其核心构建逻辑基于ORPO算法，通过精心设计的对话配对来引导模型进行深度推理与安全分析。数据构建过程中，开发者将系统指令从对话轮次数组中剥离，独立置于“system”键下，确保了对话结构的清晰与工具兼容性。每个数据样本严格包含一个系统指令、一个优选的安全对话轮次以及一个被拒绝的对抗性对话轮次，这种结构旨在模拟模型在面对提示注入和越狱攻击时应做出的正确与错误响应。

特点

该数据集在技术实现上展现出显著特点，其结构经过优化，严格遵循偶数轮次的消息配对，即用户输入后紧跟助手响应，从而解决了与Axolotl等训练框架的兼容性问题。数据集将元指令独立存储，维护了对话的完整性，便于chat_template.argilla等加载器直接使用。样本中的“chosen”与“rejected”字段分别代表了模型应学习的安全响应范例与需避免的错误响应，为偏好优化提供了明确的对比信号。此外，数据集期望模型在推理时采用系统二思维链协议，先输出内部推理过程，再生成结构化的安全验证JSON，这强化了模型的可解释性与决策可靠性。

使用方法

使用该数据集时，研究人员可将其直接集成至Axolotl等主流训练框架中进行模型微调。在配置文件中，指定数据集的路径并选用chat_template.argilla类型，即可自动加载系统指令与对话配对。训练目标旨在使大型语言模型学会审慎分析用户输入，识别其中的提示注入、越狱攻击等对抗性行为，并输出包含思维链和最终判决的标准化响应。在推理阶段，模型被设计为遵循特定的输出格式，即先产生封装在<think>标签内的推理步骤，再输出一个包含分析摘要和拦截判决的JSON对象，从而实现自动化安全评估。

背景与挑战

背景概述

随着大型语言模型在各类应用场景中的广泛部署，其面临的安全威胁日益凸显，尤其是提示注入、越狱攻击等对抗性输入手段，能够诱导模型生成有害或越权内容。为应对这一挑战，Prompt Injection Defender Dataset - Version 2 应运而生，该数据集由研究社区于近期构建，专注于训练具备系统二思维能力的生成式AI安全判官。其核心研究问题在于通过偏好学习技术，教导模型对用户输入进行深度审议与分析，从而精准识别并阻断各类对抗性攻击。该数据集的创建标志着生成式AI安全领域从被动防御向主动推理防御的重要转变，为构建更可靠、可解释的安全评估框架提供了关键数据支撑。

当前挑战

该数据集旨在解决的领域挑战是生成式AI安全中的提示注入与对抗性攻击检测问题，其核心难点在于模型需具备复杂的逻辑推理与上下文理解能力，以区分恶意指令与正常查询，并生成结构化的安全裁决。在构建过程中，技术团队面临数据格式与训练工具兼容性的重大挑战，早期版本因系统提示信息与对话轮次交织，导致在Axolotl等主流训练框架中引发轮次数量无效错误。为此，新版数据集进行了彻底重构，通过将元指令剥离至独立的系统键，并严格确保对话轮次配对的一致性，从而满足了现代偏好优化算法对数据结构的严苛要求，确保了训练流程的稳定与高效。

常用场景

经典使用场景

在生成式人工智能安全领域，该数据集专为训练系统二安全法官模型而设计，通过偏好学习框架优化模型对提示注入和越狱攻击的检测能力。其经典应用场景涉及利用ORPO算法，使大型语言模型能够对用户输入进行深度推理与分析，从而精准识别并拦截恶意指令。数据集严格遵循对话轮次配对结构，确保了训练过程的稳定性和高效性，为安全防护模型的开发提供了标准化数据支持。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于ORPO优化的安全法官模型训练框架，以及针对Axolotl等工具链的适配性改进研究。相关成果推动了提示注入防御技术的标准化，促进了如链式思维验证协议和系统二安全评估方法的发展。这些工作进一步拓展了数据集在多层次AI安全防护系统中的应用，为后续对抗性攻击检测研究提供了重要参考。

数据集最近研究