safetyconflicts

Hugging Face2025-06-04 更新2025-06-05 收录

下载链接：

https://huggingface.co/datasets/hadikhalaf/safetyconflicts

下载链接

链接失效反馈

官方服务：

资源简介：

SafetyConflicts数据集是一个包含约5460个合成用户提示的集合，这些提示使用GPT-4.1生成，用于自然测试OpenAI的11个核心安全配置之间的紧张关系。提示风格模仿现实中的用户互动，包含多种长度、语境和非正式语法。数据集旨在用于AI安全对齐测试、处理真实用户场景的能力评估、安全行为基准测试以及在冲突指导下的AI决策研究。

创建时间：

2025-05-29

原始信息汇总

SafetyConflicts 数据集概述

基本信息

许可证: Apache-2.0
数据集名称: SafetyConflicts
数据规模: 1K<n<10K
下载大小: 165064761 bytes
数据集大小: 448566478 bytes
训练集样本数: 4342

数据集内容

特征:
- prompt: 字符串类型，用户提示
- conflict: 字符串序列，冲突描述
- approach: 字符串类型，处理方法
- intensity: 字符串类型，冲突强度
- context: 字符串类型，上下文信息
- config_categories: 字符串序列，配置类别
- responses: 结构体，包含以下模型的响应序列:
  - qwen3-14b
  - r1_llama70b
  - r1_qwen1.5b
- reasonings: 结构体，包含以下模型的推理序列:
  - qwen3-14b
  - r1_llama70b
  - r1_qwen1.5b

数据集描述

总提示数: 4342（每个配置对组合约80个提示）
配置对组合: 11个核心安全配置的55种组合
推理轨迹和响应: 每个提示10次运行，来自Qwen3-14B、Deepseek-R1-Llama70B-distilled和Deepseek-R1-Qwen1.5B-distilled模型

关键特性

真实用户语言: 模拟用户与AI系统的实际交互，使用非正式语法、多样化长度和上下文。
安全配置覆盖: 测试11个OpenAI核心安全配置，包括:
- 上下文边界:
  - POLITICAL_MANIPULATION
  - PRIVACY_PROTECTION
- 行为准则:
  - ILLICIT_BEHAVIOR_PREVENTION
  - ABUSE_PREVENTION
  - MEDICAL_ADVICE_LIMITATION
- 准确性标准:
  - FACTUAL_ACCURACY
  - UNCERTAINTY_EXPRESSION
- 公平性与交互:
  - DEMOGRAPHIC_FAIRNESS
  - INTELLECTUAL_FREEDOM
  - CULTURAL_SENSITIVITY
- 权威框架:
  - CHAIN_OF_COMMAND

使用场景

测试AI安全对齐在竞争优先级中的表现
评估系统处理具有嵌入式紧张关系的真实用户场景
自然语言上下文中的安全行为基准测试
冲突准则下的AI决策研究

限制与注意事项

提示设计具有挑战性但不包含有害内容
针对OpenAI特定安全框架生成（可能不适用于其他系统）
不适用于对抗性红队测试或越狱

引用

@misc{khalaf2025safetyconflicts, author = {Khalaf, Hadi}, title = {Safety Conflicts Dataset}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/hadikhalaf/safetyconflicts}, note = {Accessed: June 4, 2025} }

搜集汇总

数据集介绍

构建方式

SafetyConflicts数据集通过GPT-4.1模型系统生成模拟用户提示，旨在触发OpenAI安全配置间的潜在冲突。研究团队精心设计了4,342条提示文本，覆盖11项核心安全配置的55种组合关系，每种配置组合约含80条提示。每条提示均附带三种前沿推理模型（Qwen3-14B、Deepseek-R1-Llama70B-distilled和Deepseek-R1-Qwen1.5B-distilled）的10次推理轨迹与响应结果，构建过程注重自然语言交互的真实性与安全边界的系统性测试。

特点

该数据集以高度拟真的用户语言为显著特征，包含日常对话中的非正式语法、多变句式及丰富语境。其独特价值在于全面覆盖OpenAI安全框架的三大维度：语境边界（如政治操纵防范、隐私保护）、行为准则（如非法活动预防、医疗建议限制）以及公平交互（如人口统计公平、文化敏感性）。每个提示文本均标注冲突类型、处理方法和强度等级，并配备多模型响应对比，为研究安全配置间的动态博弈提供立体化数据支撑。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用其结构化字段开展多维分析。prompt字段包含原始用户输入，conflict字段标记触发的安全冲突类型，responses结构体存储不同模型的生成结果，reasonings结构体则提供对应的决策逻辑。该数据集特别适用于安全对齐测试、多目标决策评估等场景，使用时需注意其专为OpenAI安全框架设计的特点，建议结合config_categories字段进行配置组合的交叉验证。

背景与挑战

背景概述

SafetyConflicts数据集由研究人员Hadi Khalaf于2025年发布，旨在探索人工智能安全配置之间的潜在冲突。该数据集聚焦于OpenAI安全框架下11项核心配置间的交互作用，通过精心设计的合成提示词，模拟真实用户场景中可能触发的安全策略矛盾。数据集包含4,342条由GPT-4.1生成的提示词，覆盖55种安全配置组合，并附带三种前沿推理模型的响应轨迹。这一创新性资源为研究AI系统在复杂伦理决策中的行为模式提供了重要基准，推动了可解释AI安全领域的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多维度安全策略的动态平衡难题，当政治操纵防护与隐私保护等不同维度的安全要求产生冲突时，AI系统如何做出符合伦理的优先级判断；在构建技术层面，既要确保提示词能有效触发配置冲突，又需维持自然语言交互的真实性，避免生成明显对抗性内容。此外，不同文化背景下的敏感性差异、医疗建议等专业领域的准确性要求，都为数据集的代表性和泛化能力带来考验。

常用场景

经典使用场景

在人工智能安全研究领域，SafetyConflicts数据集被广泛用于评估大型语言模型在复杂安全配置冲突下的行为表现。研究者通过分析模型对4,342个精心设计的冲突性提示的响应，能够深入理解模型在不同安全准则间的权衡机制。该数据集特别适合用于测试模型在政治操纵、隐私保护、非法行为预防等11个核心安全维度上的表现，为安全对齐研究提供了标准化评估框架。

衍生相关工作

该数据集催生了一系列关于AI安全配置优化的创新研究。基于其构建的基准测试框架被应用于评估不同架构模型的安全性能，相关成果发表在NeurIPS等顶级会议。部分研究进一步扩展了数据集的应用范围，开发出针对特定领域（如医疗、金融）的安全冲突检测方法，推动了领域适应性安全研究的发展。

数据集最近研究