five

UnsafeChain

收藏
arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://github.com/mbzuai-nlp/UnsafeChain
下载链接
链接失效反馈
官方服务:
资源简介:
UnsafeChain是一个安全对齐数据集,由具有多样化来源的困难提示构建,其中不安全的完成被识别并明确更正为安全响应。通过将模型暴露于不安全行为并指导其更正,UnsafeChain在保持一般推理能力的同时增强了安全性。数据集涵盖了对抗性攻击、数学和代码推理、事实问答和调整数据等六个领域。UnsafeChain包含13.6K个经过精心策划的元组,旨在解决推理模型安全性的挑战,帮助模型学习安全原则并提高鲁棒性和泛化能力。
提供机构:
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE 2Cluster Innovation Centre, University of Delhi, India
创建时间:
2025-07-29
原始信息汇总

UnsafeChain 数据集概述

🔍 数据集简介

  • 名称: UnsafeChain
  • 目的: 通过困难案例增强推理模型的安全性
  • 特点: 采用"修正优先"方法,使用GPT-4.1明确区分安全/不安全响应
  • 对比: 不同于SafeChain等过滤安全完成的工作

📂 数据集结构

  • finetune/: 模型和数据集微调脚本
  • evaluation/: 11个基准测试评估脚本
  • utils/: 审核工具和其他实用程序
  • 配置文件:
    • requirements.txt: Python依赖项
    • .env.example: 环境变量示例

🛠️ 使用方式

环境配置

  1. 克隆仓库: git clone https://github.com/yuxiaw/UnsafeChain.git
  2. 安装依赖: pip install -r requirements.txt
  3. 设置环境变量:
    • HF_TOKEN: HuggingFace令牌
    • OPENAI_API_KEY: OpenAI API密钥

模型微调

bash python finetune/finetune.py --model <hf_model_name_or_path> --dataset <hf_dataset_name> --output <output_dir>

📊 评估基准

包含11个评估脚本:

  1. WildJailbreak
  2. StrongReject
  3. TruthfulQA MC
  4. TruthfulQA
  5. MBPP
  6. GSM8K
  7. Alignment/Coherence
  8. WildChat
  9. JailbreakBench
  10. MATH-500
  11. HumanEval

📜 引用格式

bibtex @article{tomar2025safechain++, title = {UnsafeChain:Enhancing Reasoning Model Safety via Hard Cases}, author = {Raj Vardhan Tomar and Preslav Nakov and Yuxia Wang}, journal={arXiv preprint arXiv:2507.21652}, year={2025}, url={https://doi.org/10.48550/arXiv.2507.21652} }

搜集汇总
数据集介绍
main_image_url
构建方式
UnsafeChain数据集的构建基于多样化的硬提示(hard prompts),这些提示来自多个领域,包括对抗性攻击、数学推理、代码生成和事实问答等。研究人员首先识别出那些总是引发模型产生不安全输出的硬提示,随后利用GPT-4.1对这些不安全的输出进行修正,生成安全的、符合政策要求的链式思考(CoT)响应。每个修正后的响应均通过LlamaGuard进行安全性验证,确保其符合安全标准。
特点
UnsafeChain数据集的核心特点在于其专注于硬提示及其修正后的安全响应,覆盖了广泛的领域和任务类型。与以往仅过滤安全响应的数据集不同,UnsafeChain通过修正不安全行为,为模型提供了从错误中学习的机会。此外,数据集的多样性设计平衡了安全性和通用推理能力,使其在对抗性场景和常规任务中均表现出色。
使用方法
UnsafeChain适用于监督微调(SFT)任务,旨在提升大型推理模型的安全性和鲁棒性。用户可通过加载数据集并利用参数高效微调技术(如LoRA)对模型进行训练。训练过程中,模型学习如何识别并修正不安全行为,同时保持其通用推理能力。评估时,可使用内置的基准测试(如WildJailbreak、GSM8K等)量化模型在安全和任务性能上的表现。
背景与挑战
背景概述
UnsafeChain数据集由Mohamed bin Zayed人工智能大学(MBZUAI)的研究团队于2025年提出,旨在解决大型推理模型(LRMs)在思维链(CoT)推理过程中产生的安全问题。随着LRMs能力的增强,CoT推理引入了新的安全挑战,现有研究主要关注过滤具有安全高质量响应的提示,而忽略了那些总是引发有害输出的困难提示。UnsafeChain通过构建一个包含多样来源的困难提示的安全对齐数据集,填补了这一空白。该数据集不仅识别不安全完成情况,还将其明确纠正为安全响应,从而在保持一般推理能力的同时增强模型的安全性。
当前挑战
UnsafeChain面临的挑战主要体现在两个方面:首先,在领域问题方面,该数据集旨在解决大型推理模型在思维链推理中的安全对齐问题,特别是在处理困难提示时模型容易产生有害输出的挑战。其次,在构建过程中,研究人员需要从多样化的领域(如对抗性攻击、数学和代码推理、事实问答等)收集困难提示,并利用强大的模型(如GPT-4.1)将这些不安全响应纠正为安全且政策对齐的完成情况。这一过程不仅需要确保纠正后的响应安全,还需验证其安全性和有效性,增加了数据集的构建难度。
常用场景
经典使用场景
UnsafeChain数据集专为提升大型推理模型(LRMs)的安全性而设计,其经典使用场景包括对抗性安全评估、数学推理、代码生成和事实性问答。通过针对性地修正那些容易引发有害输出的硬提示(hard prompts),该数据集能够显著提升模型在复杂推理任务中的安全性和鲁棒性。例如,在对抗性攻击场景中,UnsafeChain通过修正模型对恶意提示的响应,帮助模型学会如何识别并拒绝潜在的有害请求。
实际应用
在实际应用中,UnsafeChain可广泛应用于需要高安全性的领域,如在线客服、内容审核和教育辅助系统。例如,在在线客服场景中,模型可能面临用户的恶意提问,UnsafeChain训练后的模型能够更可靠地生成安全且有用的回答,避免传播有害信息。此外,该数据集还可用于提升代码生成和数学推理模型的安全性,确保其在复杂任务中不会产生误导性输出。
衍生相关工作
UnsafeChain的推出激发了多项相关研究,尤其是在安全对齐和对抗性防御领域。例如,STAR-1和SafeChain等数据集在UnsafeChain的基础上进一步优化了数据选择和评估方法。此外,一些研究开始探索结合SFT和RL的方法,以进一步提升模型的安全性和泛化能力。UnsafeChain的修正机制也为其他领域(如医疗和法律)的安全对齐研究提供了借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作