prompt-safety-scores

Hugging Face2025-09-01 更新2025-09-02 收录

下载链接：

https://huggingface.co/datasets/agentlans/prompt-safety-scores

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于提示语安全性评估的集合，它通过多个大型语言模型对提示语进行安全性标注，并使用主成分分析生成连续的安全分数。数据集适用于构建灵活且健壮的提示语分类器，不依赖于人工标注数据，增强了各种应用中的安全性评估。

创建时间：

2025-08-26

原始信息汇总

数据集概述

基本信息

数据集名称: Composite Safety Scoring for Prompts Using Multiple LLM Annotations
许可证: Open Data Commons Attribution License (ODC-BY)
任务类别: 文本分类、特征提取
语言: 英语
标签: 安全性、评分、提示

方法

数据来源: 基于 agentlans/prompt-safety-classification 数据集中的提示
评估方法: 使用多个大型语言模型（LLM）对提示的安全性进行评分，评分范围为0（完全不安全）到10（完全安全）
模型列表:
- Hermes-3-Llama-3.2-3B.Q4_K_M.gguf
- google_gemma-3-4b-it-Q4_K_M.gguf
- granite-3.3-2b-instruct
- Ministral-8B-Instruct-2410-Q4_K_M.gguf
- HuggingFaceTB_SmolLM3-3B-Q4_K_M.gguf
- Meta-Llama-3.1-8B-Instruct-abliterated-Q4_K_M.gguf
- Phi-4-mini-instruct-abliterated-Q4_K_M.gguf
数据处理: 原始分数除以10进行缩放，得到0.0到1.0之间的评分
统计分析: 使用R语言和missMDA包进行缺失值插补，通过主成分分析（PCA）提取第一主成分生成复合安全分数，并线性缩放到0-1范围

结果

数据集划分: 80%训练集和20%测试集
相关性分析: 各模型标注间存在显著相关性
分类性能: 复合安全分数的ROC曲线下面积（AUC）为0.868，显示出强大的分类能力

讨论

复合安全分数与单个模型标注呈现强相关性
使用多个模型有助于减少单一LLM或数据源的偏差
排除了中文语言模型，因为提示仅为英文且担心审查制度会影响安全评估

结论

研究表明，小型LLMs集体使用可以生成提示的复合安全分数。这种方法能够创建不依赖人工标注数据的灵活且强大的提示分类器，增强了跨不同应用的安全性评估。

许可证

本数据集采用Open Data Commons Attribution License (ODC-BY)许可。您可以自由分享、修改和使用数据，但需要注明出处。完整法律条款请参见：https://opendatacommons.org/licenses/by/1.0/

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，构建高质量数据集是确保模型可靠性的基石。本数据集源自agentlans/prompt-safety-classification的原始提示词集合，通过七种不同规模的生成式语言模型（包括Hermes-3-Llama-3.2-3B、Gemma-3-4B等）进行多角度安全标注。每个提示词均采用标准化评估模板，要求模型基于伦理准则和潜在危害风险给出0-10分的安全评分，最终通过除以10归一化为0.0-1.0的连续值。针对部分模型拒绝评分导致的缺失值，采用R语言的missMDA包进行插补处理，并通过主成分分析提取第一主成分作为综合安全得分，再线性映射至0-1区间形成最终标注。

使用方法

研究者可基于该数据集开发自适应安全阈值分类器。数据集已预分割为80%训练集与20%测试集，可直接用于监督学习。综合安全得分可作为连续标签训练回归模型，亦可设定阈值转换为二分类任务。使用时应注意到某些敏感提示可能导致部分模型拒绝评分，建议结合缺失值处理机制。通过分析不同模型评分差异，还能挖掘特定类型的脆弱性模式。该数据集遵循ODC-BY协议，使用时需保留原始标注方法说明，且适用于构建跨任务的动态安全过滤系统。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，提示词安全性评估成为人工智能安全研究的关键议题。prompt-safety-scores数据集由研究团队于2024年创建，旨在通过集成多模型标注机制构建连续型安全评分体系。该数据集创新性地采用主成分分析方法融合多个轻量级语言模型的安全评估结果，解决了传统二分类评估体系在应对新型越狱攻击和跨场景适应性方面的局限性，为构建动态化、细粒度的提示词安全评估框架提供了重要数据基础。

当前挑战

该数据集致力于解决提示词安全评估中的多维度挑战：传统二分类体系难以捕捉安全风险的连续谱特征，且固定阈值无法适应不同应用场景的安全需求。在构建过程中面临模型异构性挑战，部分模型对敏感提示词产生拒绝响应而非连续评分，导致数据缺失问题；同时需克服语言模型内置审查机制对评分一致性的干扰，特别是中英文模型因审查策略差异产生的评估偏差，最终通过主成分分析和多重插补技术实现跨模型标注的有效融合。

常用场景

经典使用场景

在人工智能安全研究领域，该数据集通过集成多个大型语言模型的标注结果，构建连续型安全评分体系，为提示词安全评估提供了标准化基准。其典型应用场景包括训练下一代安全分类器模型，以及作为验证新提出安全算法的参考标准，显著提升了提示词风险评估的客观性和可重复性。

解决学术问题

该数据集有效解决了传统二分类安全评估中存在的粒度不足问题，通过连续评分机制捕捉安全风险的细微差异。其采用主成分分析合成的复合安全分数，为研究社区提供了超越单一模型偏见的评估范式，推动了基于群体智能的安全评估方法论发展，对构建自适应安全阈值体系具有重要理论价值。

实际应用

在实际应用层面，该数据集可集成至AI对话系统的前置过滤模块，实时评估用户输入的潜在风险等级。企业级AI平台可依据其提供的连续安全分数，动态调整内容生成策略，在电商客服、教育辅导等敏感场景中实现精准的风险管控，同时保持对话流畅性。

数据集最近研究