safetyconflicts
收藏Hugging Face2025-06-04 更新2025-06-05 收录
下载链接:
https://huggingface.co/datasets/hadikhalaf/safetyconflicts
下载链接
链接失效反馈官方服务:
资源简介:
SafetyConflicts数据集是一个包含约5460个合成用户提示的集合,这些提示使用GPT-4.1生成,用于自然测试OpenAI的11个核心安全配置之间的紧张关系。提示风格模仿现实中的用户互动,包含多种长度、语境和非正式语法。数据集旨在用于AI安全对齐测试、处理真实用户场景的能力评估、安全行为基准测试以及在冲突指导下的AI决策研究。
创建时间:
2025-05-29
原始信息汇总
SafetyConflicts 数据集概述
基本信息
- 许可证: Apache-2.0
- 数据集名称: SafetyConflicts
- 数据规模: 1K<n<10K
- 下载大小: 165064761 bytes
- 数据集大小: 448566478 bytes
- 训练集样本数: 4342
数据集内容
- 特征:
prompt: 字符串类型,用户提示conflict: 字符串序列,冲突描述approach: 字符串类型,处理方法intensity: 字符串类型,冲突强度context: 字符串类型,上下文信息config_categories: 字符串序列,配置类别responses: 结构体,包含以下模型的响应序列:qwen3-14br1_llama70br1_qwen1.5b
reasonings: 结构体,包含以下模型的推理序列:qwen3-14br1_llama70br1_qwen1.5b
数据集描述
- 总提示数: 4342(每个配置对组合约80个提示)
- 配置对组合: 11个核心安全配置的55种组合
- 推理轨迹和响应: 每个提示10次运行,来自Qwen3-14B、Deepseek-R1-Llama70B-distilled和Deepseek-R1-Qwen1.5B-distilled模型
关键特性
- 真实用户语言: 模拟用户与AI系统的实际交互,使用非正式语法、多样化长度和上下文。
- 安全配置覆盖: 测试11个OpenAI核心安全配置,包括:
- 上下文边界:
POLITICAL_MANIPULATIONPRIVACY_PROTECTION
- 行为准则:
ILLICIT_BEHAVIOR_PREVENTIONABUSE_PREVENTIONMEDICAL_ADVICE_LIMITATION
- 准确性标准:
FACTUAL_ACCURACYUNCERTAINTY_EXPRESSION
- 公平性与交互:
DEMOGRAPHIC_FAIRNESSINTELLECTUAL_FREEDOMCULTURAL_SENSITIVITY
- 权威框架:
CHAIN_OF_COMMAND
- 上下文边界:
使用场景
- 测试AI安全对齐在竞争优先级中的表现
- 评估系统处理具有嵌入式紧张关系的真实用户场景
- 自然语言上下文中的安全行为基准测试
- 冲突准则下的AI决策研究
限制与注意事项
- 提示设计具有挑战性但不包含有害内容
- 针对OpenAI特定安全框架生成(可能不适用于其他系统)
- 不适用于对抗性红队测试或越狱
引用
@misc{khalaf2025safetyconflicts, author = {Khalaf, Hadi}, title = {Safety Conflicts Dataset}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/hadikhalaf/safetyconflicts}, note = {Accessed: June 4, 2025} }
搜集汇总
数据集介绍

构建方式
SafetyConflicts数据集通过GPT-4.1模型系统生成模拟用户提示,旨在触发OpenAI安全配置间的潜在冲突。研究团队精心设计了4,342条提示文本,覆盖11项核心安全配置的55种组合关系,每种配置组合约含80条提示。每条提示均附带三种前沿推理模型(Qwen3-14B、Deepseek-R1-Llama70B-distilled和Deepseek-R1-Qwen1.5B-distilled)的10次推理轨迹与响应结果,构建过程注重自然语言交互的真实性与安全边界的系统性测试。
特点
该数据集以高度拟真的用户语言为显著特征,包含日常对话中的非正式语法、多变句式及丰富语境。其独特价值在于全面覆盖OpenAI安全框架的三大维度:语境边界(如政治操纵防范、隐私保护)、行为准则(如非法活动预防、医疗建议限制)以及公平交互(如人口统计公平、文化敏感性)。每个提示文本均标注冲突类型、处理方法和强度等级,并配备多模型响应对比,为研究安全配置间的动态博弈提供立体化数据支撑。
使用方法
研究者可通过HuggingFace平台直接加载数据集,利用其结构化字段开展多维分析。prompt字段包含原始用户输入,conflict字段标记触发的安全冲突类型,responses结构体存储不同模型的生成结果,reasonings结构体则提供对应的决策逻辑。该数据集特别适用于安全对齐测试、多目标决策评估等场景,使用时需注意其专为OpenAI安全框架设计的特点,建议结合config_categories字段进行配置组合的交叉验证。
背景与挑战
背景概述
SafetyConflicts数据集由研究人员Hadi Khalaf于2025年发布,旨在探索人工智能安全配置之间的潜在冲突。该数据集聚焦于OpenAI安全框架下11项核心配置间的交互作用,通过精心设计的合成提示词,模拟真实用户场景中可能触发的安全策略矛盾。数据集包含4,342条由GPT-4.1生成的提示词,覆盖55种安全配置组合,并附带三种前沿推理模型的响应轨迹。这一创新性资源为研究AI系统在复杂伦理决策中的行为模式提供了重要基准,推动了可解释AI安全领域的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多维度安全策略的动态平衡难题,当政治操纵防护与隐私保护等不同维度的安全要求产生冲突时,AI系统如何做出符合伦理的优先级判断;在构建技术层面,既要确保提示词能有效触发配置冲突,又需维持自然语言交互的真实性,避免生成明显对抗性内容。此外,不同文化背景下的敏感性差异、医疗建议等专业领域的准确性要求,都为数据集的代表性和泛化能力带来考验。
常用场景
经典使用场景
在人工智能安全研究领域,SafetyConflicts数据集被广泛用于评估大型语言模型在复杂安全配置冲突下的行为表现。研究者通过分析模型对4,342个精心设计的冲突性提示的响应,能够深入理解模型在不同安全准则间的权衡机制。该数据集特别适合用于测试模型在政治操纵、隐私保护、非法行为预防等11个核心安全维度上的表现,为安全对齐研究提供了标准化评估框架。
衍生相关工作
该数据集催生了一系列关于AI安全配置优化的创新研究。基于其构建的基准测试框架被应用于评估不同架构模型的安全性能,相关成果发表在NeurIPS等顶级会议。部分研究进一步扩展了数据集的应用范围,开发出针对特定领域(如医疗、金融)的安全冲突检测方法,推动了领域适应性安全研究的发展。
数据集最近研究
最新研究方向
在人工智能安全领域,SafetyConflicts数据集为研究多维度安全配置间的潜在冲突提供了重要基准。当前研究聚焦于探索大型语言模型在复杂现实场景中平衡相互矛盾的安全准则的能力,特别是在政治操纵预防与隐私保护等关键配置之间的动态博弈。该数据集通过模拟真实用户交互模式,推动了基于Qwen和Llama等前沿模型的决策机制可解释性研究,为构建更具鲁棒性的AI安全框架提供了实证基础。近期相关研究已开始关注模型在不同文化语境下处理安全冲突的泛化能力,这将对全球化AI部署产生深远影响。
以上内容由遇见数据集搜集并总结生成



