guard-glp-data
收藏Hugging Face2026-04-20 更新2026-04-21 收录
下载链接:
https://huggingface.co/datasets/ddidacus/guard-glp-data
下载链接
链接失效反馈官方服务:
资源简介:
Guard-GLP 是一个多分区的提示数据集,标注了 Llama Guard 3 8B 的安全类别,专为训练和评估生成潜在先验(GLP)模型以进行LLM安全分类而设计。数据集包含四个分区:benign_train(良性训练集)、benign_test(良性测试集)、adversarial_calibration(对抗性校准集)和 adversarial_test(对抗性测试集),总计超过42,074个样本。每个样本包含原始用户提示、其来源以及 Llama Guard 3 8B 的安全判决(guard_category)。guard_category 表示违反的安全类别代码(如 S2、S10),空字符串表示安全提示。数据集来源包括 FineWeb(良性网络文本)、WildJailbreak(直接有害指令和对抗性包装有害指令)、SG-Bench(恶意查询)、JailbreakBench(黑盒越狱攻击提示)和 HarmEval(多主题有害提示)。标签遵循 Llama Guard 3 8B 的分类标准,涵盖暴力犯罪、非暴力犯罪、性相关犯罪、儿童性剥削、诽谤、专业建议、隐私、知识产权、无差别武器、仇恨、自杀与自残、性内容、选举和代码解释器滥用等14个类别。数据集适用于文本分类任务,特别是LLM安全性和内容审核相关的研究和应用。
创建时间:
2026-04-19
原始信息汇总
Guard-GLP 数据集概述
数据集基本信息
- 名称: Guard-GLP
- 许可证: Apache-2.0
- 主要任务类别: 文本分类
- 语言: 英语
- 标签: 安全性、越狱、llama-guard、内容审核、对抗性
- 规模: 10K < n < 100K
- 下载大小: 45,224,524 字节
- 数据集大小: 75,067,891 字节
数据集描述
该数据集是一个多分片的提示数据集,使用 Llama Guard 3 8B 的安全类别进行标注,旨在用于训练和评估用于LLM安全分类的生成式潜在先验模型。
数据结构
特征
prompt: 原始用户提示。source: 数据来源。guard_category: Llama Guard 3 8B 的安全判定类别代码。对于安全提示,此字段为空字符串""。llama1b_successful_attack: 布尔值。
数据分片
| 分片名称 | 示例数量 | 字节大小 |
|---|---|---|
benign_train |
10,000 | 31,639,260 |
benign_test |
10,000 | 31,710,840 |
adversarial_calibration |
10,000 | 1,452,327 |
adversarial_test |
12,074 | 10,265,464 |
分片详情与来源
| 分片 | 行数 | 不安全比例 | 来源 |
|---|---|---|---|
train |
10,000 | 3.6% | FineWeb (良性网络文本) |
calibration |
10,000 | 77.6% | WildJailbreak vanilla-harmful |
test |
12,074 | 51.2% | WildJailbreak adversarial, SG-Bench, JailbreakBench (PAIR), HarmEval |
来源数据集
train: HuggingFaceFW/fineweb (通用网络文本,主要为安全内容)calibration: allenai/wildjailbreakvanilla_harmful(直接的恶意指令,无对抗性包装)test: 混合来源:- allenai/wildjailbreak
adversarial_harmful(经过越狱包装的恶意指令) - ddidacus/SG-Bench-malicious-instructions (SG-Bench 恶意查询)
- JailbreakBench PAIR / vicuna-13b-v1.5 (黑盒越狱攻击提示)
- SoftMINER-Group/HarmEval (多主题恶意提示)
- allenai/wildjailbreak
标签模式
标签来源于 meta-llama/Llama-Guard-3-8B,仅应用于用户提示(不包括模型回复)。
| 代码 | 类别 |
|---|---|
"" |
安全 |
S1 |
暴力犯罪 |
S2 |
非暴力犯罪 |
S3 |
性相关犯罪 |
S4 |
儿童性剥削 |
S5 |
诽谤 |
S6 |
专业建议 |
S7 |
隐私 |
S8 |
知识产权 |
S9 |
无差别武器 |
S10 |
仇恨 |
S11 |
自杀与自残 |
S12 |
性内容 |
S13 |
选举 |
S14 |
代码解释器滥用 |
类别分布
训练集 (FineWeb — 主要为安全内容)
| 类别 | 数量 |
|---|---|
| S1 (暴力犯罪) | 229 |
| S8 (知识产权) | 36 |
| S12 (性内容) | 24 |
| S5 (诽谤) | 21 |
| S7 (隐私) | 13 |
校准集 (WildJailbreak vanilla-harmful — 主要为不安全内容)
| 类别 | 数量 |
|---|---|
| S2 (非暴力犯罪) | 2,180 |
| S10 (仇恨) | 1,813 |
| S7 (隐私) | 1,136 |
| S5 (诽谤) | 611 |
| S6 (专业建议) | 449 |
测试集 (混合对抗性来源)
| 类别 | 数量 |
|---|---|
| S2 (非暴力犯罪) | 1,543 |
| S10 (仇恨) | 1,275 |
| S7 (隐私) | 884 |
| S6 (专业建议) | 496 |
| S1 (暴力犯罪) | 385 |
使用示例
python from datasets import load_dataset ds = load_dataset("ddidacus/guard-glp-data")
生成二进制安全/不安全标签
ds = ds.map(lambda x: {"label": int(x["guard_category"] != "")})
生成信息
数据集使用 Guard-GLP 代码库中的 merge_datasets.py 构建。提示在Llama Guard推理前被截断至512个令牌;多令牌类别代码(如 S1,S2)按原样存储。
搜集汇总
数据集介绍

构建方式
在人工智能安全领域,构建高质量的数据集对于评估和提升大型语言模型的安全防护能力至关重要。Guard-GLP数据集通过整合多个权威来源构建而成,其训练集源自FineWeb的良性网络文本样本,校准集则采用WildJailbreak数据集的直接有害指令,测试集综合了WildJailbreak的对抗性有害指令、SG-Bench恶意查询、JailbreakBench的黑盒越狱攻击提示以及HarmEval的多主题有害提示。所有提示均经过Llama Guard 3 8B模型进行安全分类标注,生成对应的安全类别代码,构建过程注重数据源的多样性与代表性。
使用方法
在实践应用中,该数据集主要用于生成式潜在先验模型的安全分类训练与评估。研究人员可通过HuggingFace的datasets库直接加载数据集,利用内置的映射函数将细粒度的安全类别代码转换为二进制的安全/不安全标签,便于分类模型的快速开发。数据集的多个分割支持模型在不同安全场景下的性能验证,特别是对抗性测试集能够有效评估模型针对复杂越狱攻击的鲁棒性。数据预处理阶段已对提示进行512个令牌的截断处理,确保了输入数据的标准化与一致性。
背景与挑战
背景概述
随着大型语言模型(LLM)的广泛应用,其内容安全与伦理对齐问题日益凸显,防范恶意提示词(Jailbreak)攻击成为关键研究课题。在此背景下,Guard-GLP数据集应运而生,由研究人员ddidacus等人于近期构建,旨在为生成式潜在先验(GLP)模型的训练与评估提供标注资源。该数据集依托Meta公司发布的Llama Guard 3 8B安全分类器,对来自FineWeb、WildJailbreak、SG-Bench、JailbreakBench及HarmEval等多个来源的提示词进行安全类别标注,覆盖暴力犯罪、仇恨言论、隐私侵犯等14类风险。其构建不仅推动了LLM安全分类技术的发展,也为对抗性攻击检测与内容审核系统的优化奠定了数据基础。
当前挑战
Guard-GLP数据集致力于解决LLM安全分类中的对抗性攻击检测难题,其核心挑战在于如何准确识别并抵御经过精心伪装的恶意提示词,这些提示词往往通过语义转换或上下文隐藏其有害意图,导致传统分类器失效。在数据构建过程中,挑战主要源于多源数据的异构性整合,例如需协调来自FineWeb的良性文本与WildJailbreak的对抗性样本之间的分布差异,同时确保Llama Guard 3 8B标注的一致性。此外,数据集中安全类别的高度不平衡,如训练集仅含3.6%的不安全样本,亦对模型泛化能力提出了严峻考验。
常用场景
经典使用场景
在大型语言模型安全研究领域,Guard-GLP数据集为生成式潜在先验模型的训练与评估提供了关键支持。该数据集通过整合良性网络文本与对抗性越狱提示,构建了多源、多类别的安全分类样本,使得研究者能够系统性地训练模型识别从暴力犯罪到隐私侵犯等多种安全风险类别。其经典应用场景在于为安全分类器提供高质量的监督信号,帮助模型学习区分安全与有害内容,从而提升语言模型在真实场景中的鲁棒性与可靠性。
解决学术问题
Guard-GLP数据集有效应对了语言模型安全评估中数据稀缺与类别不平衡的学术挑战。通过融合FineWeb的良性数据与WildJailbreak、SG-Bench等对抗性数据集,它提供了涵盖14类安全风险的标注样本,解决了传统安全数据集中对抗性样本不足的问题。该数据集支持对模型在复杂越狱攻击下的泛化能力进行量化分析,为安全分类算法的公平比较与性能提升奠定了实证基础,推动了内容安全领域的标准化评估进程。
实际应用
在实际部署中,Guard-GLP数据集被广泛应用于构建高效的内容审核系统与安全护栏。基于该数据集训练的生成式潜在先验模型能够实时检测用户输入中的有害意图,防止语言模型生成涉及犯罪、仇恨或自伤等违规内容。此类系统可集成至聊天机器人、搜索引擎及内容生成平台,有效降低人工智能服务被滥用的风险,保障数字交互环境的安全合规,满足企业与社会对负责任人工智能的迫切需求。
数据集最近研究
最新研究方向
在大语言模型安全防护领域,Guard-GLP数据集正推动对抗性攻击检测的前沿探索。该数据集整合了来自WildJailbreak、JailbreakBench等多个对抗性测试集的标注数据,为研究生成式潜在先验模型提供了关键训练与评估资源。当前研究聚焦于利用该数据集提升模型对复杂越狱攻击的鲁棒性,特别是在处理经过精心包装的恶意指令时,如何准确识别S2(非暴力犯罪)、S10(仇恨言论)等隐蔽性安全威胁。随着Llama Guard 3等先进分类器的应用,该数据集促进了安全分类技术从静态规则向动态对抗适应的演进,对构建下一代内容审核系统具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



