UnsafeChain

Name: UnsafeChain
Creator: Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE 2Cluster Innovation Centre, University of Delhi, India
Published: 2025-07-29 18:08:52
License: 暂无描述

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/mbzuai-nlp/UnsafeChain

下载链接

链接失效反馈

官方服务：

资源简介：

UnsafeChain是一个安全对齐数据集，由具有多样化来源的困难提示构建，其中不安全的完成被识别并明确更正为安全响应。通过将模型暴露于不安全行为并指导其更正，UnsafeChain在保持一般推理能力的同时增强了安全性。数据集涵盖了对抗性攻击、数学和代码推理、事实问答和调整数据等六个领域。UnsafeChain包含13.6K个经过精心策划的元组，旨在解决推理模型安全性的挑战，帮助模型学习安全原则并提高鲁棒性和泛化能力。

提供机构：

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE 2Cluster Innovation Centre, University of Delhi, India

创建时间：

2025-07-29

原始信息汇总

UnsafeChain 数据集概述

🔍 数据集简介

名称: UnsafeChain
目的: 通过困难案例增强推理模型的安全性
特点: 采用"修正优先"方法，使用GPT-4.1明确区分安全/不安全响应
对比: 不同于SafeChain等过滤安全完成的工作

📂 数据集结构

finetune/: 模型和数据集微调脚本
evaluation/: 11个基准测试评估脚本
utils/: 审核工具和其他实用程序
配置文件:
- requirements.txt: Python依赖项
- .env.example: 环境变量示例

🛠️ 使用方式

环境配置

克隆仓库: git clone https://github.com/yuxiaw/UnsafeChain.git
安装依赖: pip install -r requirements.txt
设置环境变量:
- HF_TOKEN: HuggingFace令牌
- OPENAI_API_KEY: OpenAI API密钥

模型微调

bash python finetune/finetune.py --model <hf_model_name_or_path> --dataset <hf_dataset_name> --output <output_dir>

📊 评估基准

包含11个评估脚本:

WildJailbreak
StrongReject
TruthfulQA MC
TruthfulQA
MBPP
GSM8K
Alignment/Coherence
WildChat
JailbreakBench
MATH-500
HumanEval

📜 引用格式

bibtex @article{tomar2025safechain++, title = {UnsafeChain:Enhancing Reasoning Model Safety via Hard Cases}, author = {Raj Vardhan Tomar and Preslav Nakov and Yuxia Wang}, journal={arXiv preprint arXiv:2507.21652}, year={2025}, url={https://doi.org/10.48550/arXiv.2507.21652} }

搜集汇总

数据集介绍

构建方式

UnsafeChain数据集的构建基于多样化的硬提示（hard prompts），这些提示来自多个领域，包括对抗性攻击、数学推理、代码生成和事实问答等。研究人员首先识别出那些总是引发模型产生不安全输出的硬提示，随后利用GPT-4.1对这些不安全的输出进行修正，生成安全的、符合政策要求的链式思考（CoT）响应。每个修正后的响应均通过LlamaGuard进行安全性验证，确保其符合安全标准。

特点

UnsafeChain数据集的核心特点在于其专注于硬提示及其修正后的安全响应，覆盖了广泛的领域和任务类型。与以往仅过滤安全响应的数据集不同，UnsafeChain通过修正不安全行为，为模型提供了从错误中学习的机会。此外，数据集的多样性设计平衡了安全性和通用推理能力，使其在对抗性场景和常规任务中均表现出色。

使用方法

UnsafeChain适用于监督微调（SFT）任务，旨在提升大型推理模型的安全性和鲁棒性。用户可通过加载数据集并利用参数高效微调技术（如LoRA）对模型进行训练。训练过程中，模型学习如何识别并修正不安全行为，同时保持其通用推理能力。评估时，可使用内置的基准测试（如WildJailbreak、GSM8K等）量化模型在安全和任务性能上的表现。

背景与挑战

背景概述

UnsafeChain数据集由Mohamed bin Zayed人工智能大学（MBZUAI）的研究团队于2025年提出，旨在解决大型推理模型（LRMs）在思维链（CoT）推理过程中产生的安全问题。随着LRMs能力的增强，CoT推理引入了新的安全挑战，现有研究主要关注过滤具有安全高质量响应的提示，而忽略了那些总是引发有害输出的困难提示。UnsafeChain通过构建一个包含多样来源的困难提示的安全对齐数据集，填补了这一空白。该数据集不仅识别不安全完成情况，还将其明确纠正为安全响应，从而在保持一般推理能力的同时增强模型的安全性。

当前挑战

UnsafeChain面临的挑战主要体现在两个方面：首先，在领域问题方面，该数据集旨在解决大型推理模型在思维链推理中的安全对齐问题，特别是在处理困难提示时模型容易产生有害输出的挑战。其次，在构建过程中，研究人员需要从多样化的领域（如对抗性攻击、数学和代码推理、事实问答等）收集困难提示，并利用强大的模型（如GPT-4.1）将这些不安全响应纠正为安全且政策对齐的完成情况。这一过程不仅需要确保纠正后的响应安全，还需验证其安全性和有效性，增加了数据集的构建难度。

常用场景

经典使用场景

UnsafeChain数据集专为提升大型推理模型（LRMs）的安全性而设计，其经典使用场景包括对抗性安全评估、数学推理、代码生成和事实性问答。通过针对性地修正那些容易引发有害输出的硬提示（hard prompts），该数据集能够显著提升模型在复杂推理任务中的安全性和鲁棒性。例如，在对抗性攻击场景中，UnsafeChain通过修正模型对恶意提示的响应，帮助模型学会如何识别并拒绝潜在的有害请求。

实际应用

在实际应用中，UnsafeChain可广泛应用于需要高安全性的领域，如在线客服、内容审核和教育辅助系统。例如，在在线客服场景中，模型可能面临用户的恶意提问，UnsafeChain训练后的模型能够更可靠地生成安全且有用的回答，避免传播有害信息。此外，该数据集还可用于提升代码生成和数学推理模型的安全性，确保其在复杂任务中不会产生误导性输出。

衍生相关工作

UnsafeChain的推出激发了多项相关研究，尤其是在安全对齐和对抗性防御领域。例如，STAR-1和SafeChain等数据集在UnsafeChain的基础上进一步优化了数据选择和评估方法。此外，一些研究开始探索结合SFT和RL的方法，以进一步提升模型的安全性和泛化能力。UnsafeChain的修正机制也为其他领域（如医疗和法律）的安全对齐研究提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集