five

prompt_safety

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/dralsarrani/prompt_safety
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个精心策划的提示安全示例聚合数据集,从三个高质量来源收集:SG-Bench、do_not_answer_en.csv和SalKhan12/prompt-safety-dataset。该数据集旨在支持安全感知语言模型的发展和评估。它包含英语语言的双标签安全注释(例如,安全、不安全),并可用于文本分类、提示过滤、安全评估和越狱检测等任务。
创建时间:
2025-11-01
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Prompt Safety Aggregation Dataset
  • 语言: 英语
  • 许可证: MIT
  • 数据来源:
    • SG-Bench (https://github.com/MurrayTom/SG-Bench)
    • do_not_answer_en.csv (https://github.com/rkrisman/dna/blob/main/datasets/Instruction/do_not_answer_en.csv)
    • SalKhan12/prompt-safety-dataset (https://huggingface.co/datasets/SalKhan12/prompt-safety-dataset)

数据特征

  • 标注类型: 二元安全标注(安全/不安全)
  • 数据量:
    • 训练集: 182K
    • 测试集: 45K
  • 划分方式: 80/20比例分层划分,确保标签平衡分布

数据集特点

  • 整合多个来源的安全提示示例
  • 包含真实世界示例
  • 支持二元分类任务
  • 适用于训练模型拒绝、标记或重定向不安全查询

适用任务

  • 文本分类
  • 提示过滤
  • 安全评估
  • 越狱检测

许可证说明

各来源保留原始许可证:

  • SG-Bench: GPL-3.0
  • DNA: 源自公开来源(商业使用前需验证)
  • SalKhan12: CC-BY-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全研究领域,prompt_safety数据集通过系统整合三个权威来源构建而成。该数据集从SG-Bench安全泛化基准中提取多任务提示样本,同时收录DNA数据集明确标记的禁忌指令,并融合SalKhan12提供的多源标注数据。构建过程中采用80/20比例进行分层划分,通过标签平衡策略确保训练集与测试集具有代表性,最终形成包含22.7万条样本的标准化语料库。
特点
作为专注于提示安全的语料集合,该数据集展现出鲜明的专业特性。其核心价值在于融合了真实场景中的风险提示类型,涵盖从显性禁忌指令到隐式越狱攻击的多元样本。数据集采用简洁有效的二元安全标注体系,每条提示均被精确标记为安全或危险类别,这种设计既满足分类模型的训练需求,又为安全评估提供清晰标准。特别值得注意的是,该数据集通过分层抽样技术保障了类别分布的均衡性,使得模型能够全面学习各类安全边界的特征模式。
使用方法
在自然语言处理安全应用中,该数据集主要服务于四大核心任务场景。研究人员可将其用于文本分类模型的训练,使模型具备识别危险提示的能力;在提示过滤场景中,可基于该数据集开发实时内容筛查机制;对于安全评估工作,数据集提供的测试集可作为衡量模型防御性能的基准工具;特别在越狱攻击检测方面,数据集中收录的对抗性样本能为模型鲁棒性研究提供重要支撑。使用前需注意各子集遵循不同的开源协议,确保符合相应的使用规范。
背景与挑战
背景概述
随着大规模语言模型的广泛应用,内容安全治理成为人工智能伦理领域的核心议题。prompt_safety数据集于2023年由多机构联合构建,整合了SG-Bench安全泛化基准、DNA拒答指令集和SalKhan12细粒度标注数据三大权威来源,旨在建立标准化的大模型安全防护评估体系。该数据集通过18.2万训练样本和4.5万测试样本的规模,为语言模型拒绝危险指令、识别越狱攻击等安全能力提供了关键基准,显著推动了负责任人工智能的发展进程。
当前挑战
在解决大模型安全对齐问题时,该数据集需应对多重技术挑战:其核心任务要求模型精准区分隐含恶意指令与合法查询,同时保持对新型对抗性提示的泛化能力。构建过程中面临源数据异构性整合难题,包括不同标注体系的对齐、多许可证兼容性处理,以及确保80/20分层抽样后各类危险内容的均衡分布。这些挑战共同构成了安全数据集工程化落地的典型障碍。
常用场景
经典使用场景
在人工智能安全领域,prompt_safety数据集被广泛用于训练语言模型识别和过滤有害提示。通过整合多个高质量来源的标注数据,该数据集支持模型学习区分安全与不安全内容,典型应用包括构建提示分类系统,帮助模型在遇到不当请求时自动拒绝或重定向,从而提升交互过程的安全性与可靠性。
衍生相关工作
基于该数据集衍生的经典研究包括SG-Bench安全泛化基准的扩展工作,以及针对越狱攻击的检测框架开发。多项研究通过融合其多源标注特性,提出了分层安全评估方法,并催生了如安全强化学习策略、动态过滤管道等创新方案,持续推动着人工智能安全生态的完善。
数据集最近研究
最新研究方向
随着人工智能安全伦理问题日益凸显,prompt_safety数据集通过整合多源标注数据,为语言模型安全对齐研究提供了关键支撑。当前前沿聚焦于构建动态防御机制,通过对抗性提示检测与多模态风险识别技术,提升模型对隐含恶意指令的泛化能力。该数据集在内容审核、伦理对齐等热点场景中推动着安全评估范式的革新,其标准化标注体系正成为行业安全基准建设的重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作