guardrail-training-dataset
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/Alindstroem89/guardrail-training-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Guardrail训练数据集是一个用于微调语言模型以抵抗提示注入攻击的数据集,专为提示注入挑战(Prompt Injection Challenge)而创建。该挑战旨在通过尝试从聊天机器人中提取隐藏标志来测试AI安全性。数据集包含三个主要部分:1) guardrail_v1 - 直接攻击,包含单轮对话中的即时提示注入尝试和礼貌拒绝;2) guardrail_v2 - 多轮攻击,展示在建立融洽关系后出现的复杂多轮攻击;3) normal_conversations - 正常的合法对话,确保模型在正常查询中保持实用性而不过度防御。数据集结构为JSON格式,包含技术类型(technique)和对话内容(conversation),其中对话内容由用户(user)和助手(assistant)的角色及内容组成。数据集总规模为398,353字节,包含376个样本。适用于AI安全研究、教育、开发健壮的聊天机器人护栏等场景。数据集采用MIT许可证,由Alexander Lindström于2026年发布。
创建时间:
2026-03-16



