Reasoned Safety Alignment (ReSA)

Name: Reasoned Safety Alignment (ReSA)
Creator: 香港浸会大学计算机科学系
Published: 2025-09-15 14:47:35
License: 暂无描述

arXiv2025-09-15 更新2025-09-17 收录

下载链接：

https://openreview.net/pdf?id=TMlRv_14K6

下载链接

链接失效反馈

官方服务：

资源简介：

ReSA数据集包含80,000个样例，用于训练大型语言模型（LLMs）以抵御“越狱”攻击。该数据集采用“回答后检查”风格，首先让模型在没有安全约束的情况下尝试直接回答问题，然后基于这个回答进行安全分析。通过这种方式，ReSA旨在提高LLMs对各种“越狱”攻击的鲁棒性，同时保持其在一般任务上的性能，如数学和编码，同时实现低拒绝率。此外，ReSA还配备了安全完成机制，能够在敏感查询（甚至对抗性提示）下提供有帮助和支持的响应，例如自我伤害。这为LLMs在安全领域的发展和应用提供了重要的参考价值。

提供机构：

香港浸会大学计算机科学系

创建时间：

2025-09-15

搜集汇总

数据集介绍

构建方式

在大型语言模型安全对齐领域，ReSA数据集的构建采用了严谨的三阶段流程。首先从WILDJAILBREAK数据集获取基础查询，并应用PAIR、GPTFuzzer和PAP等越狱技术生成对抗性样本，形成包含普通/对抗、良性/有害四类查询的初始池。随后通过未对齐模型生成原始回答，并由对齐模型提炼为1-5句的答案摘要。最后基于Llama-Guard的安全分类，使用高级模型合成详细的安全分析，经过双重过滤确保逻辑一致性，最终形成80,426个高质量样本。

特点

该数据集的核心特征体现在其独特的“回答-检查”推理架构。每个样本包含意图答案摘要、安全分析和最终回答三个组件，通过结构化模板强制模型先模拟自由回答再执行安全评估。这种设计使模型能识别隐蔽在复杂查询中的恶意意图，显著提升对抗自适应越狱攻击的鲁棒性。数据集涵盖多样化的越狱模式，包括模型感知和模型无关攻击，同时保持数学推理与代码生成等通用能力基准性能，实现了安全性与实用性的帕累托最优。

使用方法

使用该数据集时，需通过监督微调将“回答-检查”机制注入模型推理过程。在部署阶段，模型接收查询后首先生成封装在安全检查标签内的答案摘要，随后执行策略符合性分析，最终仅向用户输出通过安全检查的正式回答或拒绝响应。对于高风险查询（如自伤内容），模型可启动安全完成模式提供支持性替代回应而非简单拒绝。该方法无需依赖专用推理模型，仅需500样本即可实现接近全量数据集的防护效果，为高效安全对齐提供新范式。

背景与挑战

背景概述

Reasoned Safety Alignment (ReSA) 数据集由字节跳动种子团队与香港浸会大学计算机科学系TMLR小组于2025年联合构建，旨在应对大语言模型在越狱攻击下的安全对齐挑战。该数据集围绕“先回答后检查”的核心策略设计，包含8万个样本，通过引导模型在生成最终响应前进行意图摘要与安全分析，显著提升了模型对恶意提示的鲁棒性。其创新性在于将长链思维推理与安全机制深度融合，不仅抵御了包括PAIR、GPTFuzzer在内的多种自适应攻击，还在MMLU、MATH500等通用推理基准上保持了竞争力，推动了安全对齐范式的演进。

当前挑战

ReSA数据集需解决越狱防御中恶意意图隐蔽性强、模型易被对抗性提示欺骗的核心问题。构建过程中面临多重挑战：一是需平衡多样化的查询类型（包括原始/对抗性有害/良性查询），确保模型既能识别显性恶意又能辨析伪装意图；二是依赖未对齐模型生成有害查询的初始响应，但多数对齐模型仍会拒绝回答，导致有害样本稀缺，需通过严格过滤与均衡采样保证数据质量；三是安全分析需避免逻辑矛盾（如结论与推理冲突），需设计双层过滤机制确保内部一致性。

常用场景

经典使用场景

在大型语言模型安全对齐研究中，Reasoned Safety Alignment (ReSA) 数据集被广泛应用于训练模型抵御越狱攻击。其经典使用场景涉及通过“先回答后检查”策略，指导模型在生成最终响应前先规划答案摘要并进行安全性分析。这一方法显著提升了模型对恶意提示的鲁棒性，同时保持了低过度拒绝率，成为评估和优化语言模型安全性的重要基准。

实际应用

在实际应用中，ReSA 数据集训练的模型被部署于高风险领域如内容审核、心理健康支持和客户服务系统，以处理敏感查询并提供安全响应。例如，在应对自残相关询问时，模型不仅能拒绝有害请求，还能生成支持性建议，引导用户寻求专业帮助。这种能力使其在社交媒体平台、在线咨询服务和自动化对话系统中具有重要应用价值。

衍生相关工作

ReSA 数据集催生了多项经典研究工作，包括基于“先回答后检查”策略的扩展方法如安全完成机制和高效微调技术。相关衍生工作如STAIR-DPO和Realsafe-r1进一步优化了安全性与性能的平衡，而针对自适应攻击的防御方案如PAIR和TAP的泛化研究也受益于该数据集的多样性，推动了安全对齐领域的理论创新和实践进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集