Reasoned Safety Alignment (ReSA)
收藏arXiv2025-09-15 更新2025-09-17 收录
下载链接:
https://openreview.net/pdf?id=TMlRv_14K6
下载链接
链接失效反馈官方服务:
资源简介:
ReSA数据集包含80,000个样例,用于训练大型语言模型(LLMs)以抵御“越狱”攻击。该数据集采用“回答后检查”风格,首先让模型在没有安全约束的情况下尝试直接回答问题,然后基于这个回答进行安全分析。通过这种方式,ReSA旨在提高LLMs对各种“越狱”攻击的鲁棒性,同时保持其在一般任务上的性能,如数学和编码,同时实现低拒绝率。此外,ReSA还配备了安全完成机制,能够在敏感查询(甚至对抗性提示)下提供有帮助和支持的响应,例如自我伤害。这为LLMs在安全领域的发展和应用提供了重要的参考价值。
提供机构:
香港浸会大学计算机科学系
创建时间:
2025-09-15
搜集汇总
数据集介绍

构建方式
在大型语言模型安全对齐领域,ReSA数据集的构建采用了严谨的三阶段流程。首先从WILDJAILBREAK数据集获取基础查询,并应用PAIR、GPTFuzzer和PAP等越狱技术生成对抗性样本,形成包含普通/对抗、良性/有害四类查询的初始池。随后通过未对齐模型生成原始回答,并由对齐模型提炼为1-5句的答案摘要。最后基于Llama-Guard的安全分类,使用高级模型合成详细的安全分析,经过双重过滤确保逻辑一致性,最终形成80,426个高质量样本。
特点
该数据集的核心特征体现在其独特的“回答-检查”推理架构。每个样本包含意图答案摘要、安全分析和最终回答三个组件,通过结构化模板强制模型先模拟自由回答再执行安全评估。这种设计使模型能识别隐蔽在复杂查询中的恶意意图,显著提升对抗自适应越狱攻击的鲁棒性。数据集涵盖多样化的越狱模式,包括模型感知和模型无关攻击,同时保持数学推理与代码生成等通用能力基准性能,实现了安全性与实用性的帕累托最优。
使用方法
使用该数据集时,需通过监督微调将“回答-检查”机制注入模型推理过程。在部署阶段,模型接收查询后首先生成封装在安全检查标签内的答案摘要,随后执行策略符合性分析,最终仅向用户输出通过安全检查的正式回答或拒绝响应。对于高风险查询(如自伤内容),模型可启动安全完成模式提供支持性替代回应而非简单拒绝。该方法无需依赖专用推理模型,仅需500样本即可实现接近全量数据集的防护效果,为高效安全对齐提供新范式。
背景与挑战
背景概述
Reasoned Safety Alignment (ReSA) 数据集由字节跳动种子团队与香港浸会大学计算机科学系TMLR小组于2025年联合构建,旨在应对大语言模型在越狱攻击下的安全对齐挑战。该数据集围绕“先回答后检查”的核心策略设计,包含8万个样本,通过引导模型在生成最终响应前进行意图摘要与安全分析,显著提升了模型对恶意提示的鲁棒性。其创新性在于将长链思维推理与安全机制深度融合,不仅抵御了包括PAIR、GPTFuzzer在内的多种自适应攻击,还在MMLU、MATH500等通用推理基准上保持了竞争力,推动了安全对齐范式的演进。
当前挑战
ReSA数据集需解决越狱防御中恶意意图隐蔽性强、模型易被对抗性提示欺骗的核心问题。构建过程中面临多重挑战:一是需平衡多样化的查询类型(包括原始/对抗性有害/良性查询),确保模型既能识别显性恶意又能辨析伪装意图;二是依赖未对齐模型生成有害查询的初始响应,但多数对齐模型仍会拒绝回答,导致有害样本稀缺,需通过严格过滤与均衡采样保证数据质量;三是安全分析需避免逻辑矛盾(如结论与推理冲突),需设计双层过滤机制确保内部一致性。
常用场景
经典使用场景
在大型语言模型安全对齐研究中,Reasoned Safety Alignment (ReSA) 数据集被广泛应用于训练模型抵御越狱攻击。其经典使用场景涉及通过“先回答后检查”策略,指导模型在生成最终响应前先规划答案摘要并进行安全性分析。这一方法显著提升了模型对恶意提示的鲁棒性,同时保持了低过度拒绝率,成为评估和优化语言模型安全性的重要基准。
实际应用
在实际应用中,ReSA 数据集训练的模型被部署于高风险领域如内容审核、心理健康支持和客户服务系统,以处理敏感查询并提供安全响应。例如,在应对自残相关询问时,模型不仅能拒绝有害请求,还能生成支持性建议,引导用户寻求专业帮助。这种能力使其在社交媒体平台、在线咨询服务和自动化对话系统中具有重要应用价值。
衍生相关工作
ReSA 数据集催生了多项经典研究工作,包括基于“先回答后检查”策略的扩展方法如安全完成机制和高效微调技术。相关衍生工作如STAIR-DPO和Realsafe-r1进一步优化了安全性与性能的平衡,而针对自适应攻击的防御方案如PAIR和TAP的泛化研究也受益于该数据集的多样性,推动了安全对齐领域的理论创新和实践进展。
以上内容由遇见数据集搜集并总结生成



