UnsafeChain

Name: UnsafeChain
Creator: Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE 2Cluster Innovation Centre, University of Delhi, India
Published: 2025-07-29 18:08:52
License: 暂无描述

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/mbzuai-nlp/UnsafeChain

下载链接

链接失效反馈

官方服务：

资源简介：

UnsafeChain是一个安全对齐数据集，由具有多样化来源的困难提示构建，其中不安全的完成被识别并明确更正为安全响应。通过将模型暴露于不安全行为并指导其更正，UnsafeChain在保持一般推理能力的同时增强了安全性。数据集涵盖了对抗性攻击、数学和代码推理、事实问答和调整数据等六个领域。UnsafeChain包含13.6K个经过精心策划的元组，旨在解决推理模型安全性的挑战，帮助模型学习安全原则并提高鲁棒性和泛化能力。

UnsafeChain is a safety alignment dataset constructed from challenging prompts with diverse sources, where unsafe completions are identified and explicitly corrected into safe responses. By exposing models to unsafe behaviors and guiding their correction, UnsafeChain enhances model safety while retaining general reasoning capabilities. The dataset encompasses six domains including adversarial attacks, mathematical and code reasoning, factual question answering, and alignment data, among others. UnsafeChain contains 13.6K carefully curated tuples, designed to address the safety challenges of reasoning models, helping models learn safety principles and improve their robustness and generalization capabilities.

提供机构：

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE 2Cluster Innovation Centre, University of Delhi, India

创建时间：

2025-07-29

原始信息汇总

UnsafeChain 数据集概述

🔍 数据集简介

名称: UnsafeChain
目的: 通过困难案例增强推理模型的安全性
特点: 采用"修正优先"方法，使用GPT-4.1明确区分安全/不安全响应
对比: 不同于SafeChain等过滤安全完成的工作

📂 数据集结构

finetune/: 模型和数据集微调脚本
evaluation/: 11个基准测试评估脚本
utils/: 审核工具和其他实用程序
配置文件:
- requirements.txt: Python依赖项
- .env.example: 环境变量示例

🛠️ 使用方式

环境配置

克隆仓库: git clone https://github.com/yuxiaw/UnsafeChain.git
安装依赖: pip install -r requirements.txt
设置环境变量:
- HF_TOKEN: HuggingFace令牌
- OPENAI_API_KEY: OpenAI API密钥

模型微调

bash python finetune/finetune.py --model <hf_model_name_or_path> --dataset <hf_dataset_name> --output <output_dir>

📊 评估基准

包含11个评估脚本:

WildJailbreak
StrongReject
TruthfulQA MC
TruthfulQA
MBPP
GSM8K
Alignment/Coherence
WildChat
JailbreakBench
MATH-500
HumanEval

📜 引用格式

bibtex @article{tomar2025safechain++, title = {UnsafeChain:Enhancing Reasoning Model Safety via Hard Cases}, author = {Raj Vardhan Tomar and Preslav Nakov and Yuxia Wang}, journal={arXiv preprint arXiv:2507.21652}, year={2025}, url={https://doi.org/10.48550/arXiv.2507.21652} }

搜集汇总

数据集介绍

构建方式

UnsafeChain数据集的构建基于多样化的硬提示（hard prompts），这些提示来自多个领域，包括对抗性攻击、数学推理、代码生成和事实问答等。研究人员首先识别出那些总是引发模型产生不安全输出的硬提示，随后利用GPT-4.1对这些不安全的输出进行修正，生成安全的、符合政策要求的链式思考（CoT）响应。每个修正后的响应均通过LlamaGuard进行安全性验证，确保其符合安全标准。

特点

UnsafeChain数据集的核心特点在于其专注于硬提示及其修正后的安全响应，覆盖了广泛的领域和任务类型。与以往仅过滤安全响应的数据集不同，UnsafeChain通过修正不安全行为，为模型提供了从错误中学习的机会。此外，数据集的多样性设计平衡了安全性和通用推理能力，使其在对抗性场景和常规任务中均表现出色。

使用方法

UnsafeChain适用于监督微调（SFT）任务，旨在提升大型推理模型的安全性和鲁棒性。用户可通过加载数据集并利用参数高效微调技术（如LoRA）对模型进行训练。训练过程中，模型学习如何识别并修正不安全行为，同时保持其通用推理能力。评估时，可使用内置的基准测试（如WildJailbreak、GSM8K等）量化模型在安全和任务性能上的表现。

背景与挑战

背景概述

UnsafeChain数据集由Mohamed bin Zayed人工智能大学（MBZUAI）的研究团队于2025年提出，旨在解决大型推理模型（LRMs）在思维链（CoT）推理过程中产生的安全问题。随着LRMs能力的增强，CoT推理引入了新的安全挑战，现有研究主要关注过滤具有安全高质量响应的提示，而忽略了那些总是引发有害输出的困难提示。UnsafeChain通过构建一个包含多样来源的困难提示的安全对齐数据集，填补了这一空白。该数据集不仅识别不安全完成情况，还将其明确纠正为安全响应，从而在保持一般推理能力的同时增强模型的安全性。

当前挑战

UnsafeChain面临的挑战主要体现在两个方面：首先，在领域问题方面，该数据集旨在解决大型推理模型在思维链推理中的安全对齐问题，特别是在处理困难提示时模型容易产生有害输出的挑战。其次，在构建过程中，研究人员需要从多样化的领域（如对抗性攻击、数学和代码推理、事实问答等）收集困难提示，并利用强大的模型（如GPT-4.1）将这些不安全响应纠正为安全且政策对齐的完成情况。这一过程不仅需要确保纠正后的响应安全，还需验证其安全性和有效性，增加了数据集的构建难度。

常用场景

经典使用场景

UnsafeChain数据集专为提升大型推理模型（LRMs）的安全性而设计，其经典使用场景包括对抗性安全评估、数学推理、代码生成和事实性问答。通过针对性地修正那些容易引发有害输出的硬提示（hard prompts），该数据集能够显著提升模型在复杂推理任务中的安全性和鲁棒性。例如，在对抗性攻击场景中，UnsafeChain通过修正模型对恶意提示的响应，帮助模型学会如何识别并拒绝潜在的有害请求。

实际应用

在实际应用中，UnsafeChain可广泛应用于需要高安全性的领域，如在线客服、内容审核和教育辅助系统。例如，在在线客服场景中，模型可能面临用户的恶意提问，UnsafeChain训练后的模型能够更可靠地生成安全且有用的回答，避免传播有害信息。此外，该数据集还可用于提升代码生成和数学推理模型的安全性，确保其在复杂任务中不会产生误导性输出。

衍生相关工作

UnsafeChain的推出激发了多项相关研究，尤其是在安全对齐和对抗性防御领域。例如，STAR-1和SafeChain等数据集在UnsafeChain的基础上进一步优化了数据选择和评估方法。此外，一些研究开始探索结合SFT和RL的方法，以进一步提升模型的安全性和泛化能力。UnsafeChain的修正机制也为其他领域（如医疗和法律）的安全对齐研究提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集