guardrail-training-dataset

Hugging Face2026-03-20 更新2026-03-21 收录

下载链接：

https://huggingface.co/datasets/Alindstroem89/guardrail-training-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Guardrail训练数据集是一个用于微调语言模型以抵抗提示注入攻击的数据集，专为提示注入挑战（Prompt Injection Challenge）而创建。该挑战旨在通过尝试从聊天机器人中提取隐藏标志来测试AI安全性。数据集包含三个主要部分：1) guardrail_v1 - 直接攻击，包含单轮对话中的即时提示注入尝试和礼貌拒绝；2) guardrail_v2 - 多轮攻击，展示在建立融洽关系后出现的复杂多轮攻击；3) normal_conversations - 正常的合法对话，确保模型在正常查询中保持实用性而不过度防御。数据集结构为JSON格式，包含技术类型（technique）和对话内容（conversation），其中对话内容由用户（user）和助手（assistant）的角色及内容组成。数据集总规模为398,353字节，包含376个样本。适用于AI安全研究、教育、开发健壮的聊天机器人护栏等场景。数据集采用MIT许可证，由Alexander Lindström于2026年发布。

创建时间：

2026-03-16