prompt_safety

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/dralsarrani/prompt_safety

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个精心策划的提示安全示例聚合数据集，从三个高质量来源收集：SG-Bench、do_not_answer_en.csv和SalKhan12/prompt-safety-dataset。该数据集旨在支持安全感知语言模型的发展和评估。它包含英语语言的双标签安全注释（例如，安全、不安全），并可用于文本分类、提示过滤、安全评估和越狱检测等任务。

创建时间：

2025-11-01

原始信息汇总

数据集概述

基本信息

数据集名称: Prompt Safety Aggregation Dataset
语言: 英语
许可证: MIT
数据来源:
- SG-Bench (https://github.com/MurrayTom/SG-Bench)
- do_not_answer_en.csv (https://github.com/rkrisman/dna/blob/main/datasets/Instruction/do_not_answer_en.csv)
- SalKhan12/prompt-safety-dataset (https://huggingface.co/datasets/SalKhan12/prompt-safety-dataset)

数据特征

标注类型: 二元安全标注（安全/不安全）
数据量:
- 训练集: 182K
- 测试集: 45K
划分方式: 80/20比例分层划分，确保标签平衡分布

数据集特点

整合多个来源的安全提示示例
包含真实世界示例
支持二元分类任务
适用于训练模型拒绝、标记或重定向不安全查询

适用任务

文本分类
提示过滤
安全评估
越狱检测

许可证说明

各来源保留原始许可证：

SG-Bench: GPL-3.0
DNA: 源自公开来源（商业使用前需验证）
SalKhan12: CC-BY-4.0

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，prompt_safety数据集通过系统整合三个权威来源构建而成。该数据集从SG-Bench安全泛化基准中提取多任务提示样本，同时收录DNA数据集明确标记的禁忌指令，并融合SalKhan12提供的多源标注数据。构建过程中采用80/20比例进行分层划分，通过标签平衡策略确保训练集与测试集具有代表性，最终形成包含22.7万条样本的标准化语料库。

特点

作为专注于提示安全的语料集合，该数据集展现出鲜明的专业特性。其核心价值在于融合了真实场景中的风险提示类型，涵盖从显性禁忌指令到隐式越狱攻击的多元样本。数据集采用简洁有效的二元安全标注体系，每条提示均被精确标记为安全或危险类别，这种设计既满足分类模型的训练需求，又为安全评估提供清晰标准。特别值得注意的是，该数据集通过分层抽样技术保障了类别分布的均衡性，使得模型能够全面学习各类安全边界的特征模式。

使用方法

在自然语言处理安全应用中，该数据集主要服务于四大核心任务场景。研究人员可将其用于文本分类模型的训练，使模型具备识别危险提示的能力；在提示过滤场景中，可基于该数据集开发实时内容筛查机制；对于安全评估工作，数据集提供的测试集可作为衡量模型防御性能的基准工具；特别在越狱攻击检测方面，数据集中收录的对抗性样本能为模型鲁棒性研究提供重要支撑。使用前需注意各子集遵循不同的开源协议，确保符合相应的使用规范。

背景与挑战

背景概述

随着大规模语言模型的广泛应用，内容安全治理成为人工智能伦理领域的核心议题。prompt_safety数据集于2023年由多机构联合构建，整合了SG-Bench安全泛化基准、DNA拒答指令集和SalKhan12细粒度标注数据三大权威来源，旨在建立标准化的大模型安全防护评估体系。该数据集通过18.2万训练样本和4.5万测试样本的规模，为语言模型拒绝危险指令、识别越狱攻击等安全能力提供了关键基准，显著推动了负责任人工智能的发展进程。

当前挑战

在解决大模型安全对齐问题时，该数据集需应对多重技术挑战：其核心任务要求模型精准区分隐含恶意指令与合法查询，同时保持对新型对抗性提示的泛化能力。构建过程中面临源数据异构性整合难题，包括不同标注体系的对齐、多许可证兼容性处理，以及确保80/20分层抽样后各类危险内容的均衡分布。这些挑战共同构成了安全数据集工程化落地的典型障碍。

常用场景

经典使用场景

在人工智能安全领域，prompt_safety数据集被广泛用于训练语言模型识别和过滤有害提示。通过整合多个高质量来源的标注数据，该数据集支持模型学习区分安全与不安全内容，典型应用包括构建提示分类系统，帮助模型在遇到不当请求时自动拒绝或重定向，从而提升交互过程的安全性与可靠性。

衍生相关工作

基于该数据集衍生的经典研究包括SG-Bench安全泛化基准的扩展工作，以及针对越狱攻击的检测框架开发。多项研究通过融合其多源标注特性，提出了分层安全评估方法，并催生了如安全强化学习策略、动态过滤管道等创新方案，持续推动着人工智能安全生态的完善。

数据集最近研究