ReSA

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/ByteDance-Seed/ReSA

下载链接

链接失效反馈

官方服务：

资源简介：

ReSA（推理安全对齐）是一个开源的合成安全训练数据集，包含80,426个示例，旨在通过“先回答后检查”策略增强大型语言模型对越狱攻击的鲁棒性。该数据集涵盖了四种查询类别，包括直接有害请求、表面无害但可能涉及敏感话题的请求、复杂的越狱尝试以及模仿越狱模式但无害的查询。此外，还包括一个安全完成评估集，用于测试模型在对抗性提示下对敏感话题的识别和适当反应能力。

ReSA (Reasoning Safety Alignment) is an open-source synthetic safety training dataset comprising 80,426 examples, which aims to enhance the robustness of large language models (LLMs) against jailbreak attacks via the "answer-then-check" strategy. This dataset covers four query categories, including directly harmful requests, requests that appear harmless but may involve sensitive topics, complex jailbreak attempts, and queries that mimic jailbreak patterns yet are harmless. In addition, it includes a safe completion evaluation set designed to test models' ability to recognize sensitive topics and generate appropriate responses under adversarial prompts.

创建时间：

2025-10-20

原始信息汇总

ReSA数据集概述

数据集基本信息

名称: ReSA (Reasoned Safety Alignment)
许可证: ODC-BY
任务类别: 文本生成
语言: 英语
标签: AI安全、越狱、安全训练、红队测试、思维链、推理
规模: 100M-1B
配置:
- 训练集: train/ReSA.json
- 评估集: eval/s11_extracted_with_jailbreaks.json

数据集构成

训练集组成

包含80,426个训练样本，分为四个查询类别：

普通有害查询 (16,179样本)
- 直接有害请求，可能引发不安全响应
- 涵盖各种风险类别
- 展示"回答-然后-检查"推理过程
普通良性查询 (22,763样本)
- 无害提示，可能通过关键词或敏感话题讨论类似不安全查询
- 包含来自MMLU辅助训练集的1,000个易拒绝样本
对抗性有害查询 (12,412样本)
- 复杂越狱尝试，通过角色扮演、假设场景和嵌套上下文等技术伪装有害请求
- 使用PAIR、PAP和GPTFuzzer方法生成
对抗性良性查询 (30,232样本)
- 模仿越狱模式但不含恶意意图的查询
- 帮助防止过度拒绝

核心方法

回答-然后-检查策略

采用结构化推理模板：

<think> Ill create an answer planning idea and verify its safety. The planning idea is as follows: <intended_answer_summary> [1-5句预期回答摘要] </intended_answer_summary> But wait, let me check if the planning idea is safe. [详细安全分析] </think> [最终响应：安全则回答，不安全则拒绝]

关键特性

越狱防御

全面覆盖: 包含WildJailbreak、PAIR、PAP和GPTFuzzer攻击方法示例
自适应抵抗: 对已见和未见越狱技术均表现出强大防御能力

安全完成

超越简单拒绝: 对自残等敏感话题提供支持性和有帮助的响应

效率

最小数据需求: 仅500个样本即可实现强大安全性能
平衡分布: 有害和良性查询精心平衡，防止过度拒绝

评估集

安全完成评估集: 从StrongREJECT、HarmBench和AdvBench数据集中提取所有自残相关查询
测试实例: 153个，应用PAIR、PAP和DeepInception越狱方法生成

使用说明

可直接使用指令列作为模型输入，输出列作为SFT输出

引用

@article{cao2025reasoned, title={Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check}, author={Cao, Chentao and Xu, Xiaojun and Han, Bo and Li, Hang}, journal={arXiv preprint arXiv:2509.11629}, year={2025} }

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，ReSA数据集的构建采用了系统化的合成方法，通过精心设计的四类查询样本构成其核心架构。该数据集包含80,426个训练样本，涵盖普通有害查询、普通良性查询、对抗性有害查询和对抗性良性查询四大类别。其中对抗性样本运用了PAIR、PAP和GPTFuzzer等先进攻击方法生成，而良性样本则特别选取了MMLU辅助训练集中易被误判的样本，确保数据分布的均衡性与代表性。

使用方法

在实际应用层面，研究人员可直接将指令列作为模型输入，输出列作为监督微调的目标响应。数据集支持标准的安全对齐训练流程，用户可通过监督微调方式将“答案后检查”的推理模式内化到模型中。评估阶段建议使用配套的安全完成评估集，该集合整合了StrongREJECT、HarmBench等权威数据源的自我伤害相关查询，并应用了多种越狱方法生成的测试实例，为模型安全性能提供全面验证。

背景与挑战

背景概述

人工智能安全领域面临大语言模型对抗性攻击的严峻挑战，ReSA数据集由研究团队于2025年创建，致力于通过推理增强方法强化模型的安全对齐能力。该数据集采用“先回答后检查”的创新策略，要求模型在生成最终回复前进行安全评估，有效平衡安全防护与通用能力。其构建融合了WildJailbreak等前沿对抗样本，涵盖直接有害查询与复杂越狱攻击的多样化场景，为提升模型鲁棒性提供了重要数据基础。

当前挑战

在解决大语言模型安全对齐问题时，需应对多重挑战：模型需准确识别经过角色扮演、嵌套语境等复杂伪装的对抗性攻击，同时避免对良性查询产生过度拒绝。数据集构建过程中面临高质量对抗样本生成的复杂性，包括保持语义连贯性与攻击有效性的平衡。此外，确保安全推理模板在多样化场景中的泛化能力，以及维持有害与良性样本分布的均衡性，均为构建过程中的核心难点。

常用场景

经典使用场景

在人工智能安全研究领域，ReSA数据集通过其独特的'回答-检查'机制，为大型语言模型的安全对齐提供了关键训练框架。该数据集包含四类查询样本，涵盖直接有害请求、良性查询及复杂对抗性攻击，模型需首先生成答案摘要，随后进行安全评估并决定最终响应。这种结构化的推理流程显著提升了模型对越狱攻击的防御能力，同时维持了通用任务性能，成为安全对齐研究中的基准训练资源。

解决学术问题

该数据集有效解决了语言模型安全对齐中的核心学术难题：如何在保持模型通用能力的同时抵御复杂越狱攻击。通过引入分步推理机制，模型能够区分真正有害内容与结构性复杂的良性查询，显著降低了过度拒绝率。其提供的安全完成评估集进一步推动了敏感话题响应标准的确立，为构建兼具安全性与实用性的语言模型提供了方法论支撑。

实际应用

在实际部署场景中，ReSA数据集训练的模型可应用于需要高安全性保障的智能对话系统，如心理咨询助手与公共信息服务平台。其'回答-检查'策略使模型能对涉及自伤等敏感话题的查询生成支持性回应，而非简单拒绝。这种能力在医疗健康、教育咨询等领域具有重要价值，为负责任人工智能的落地提供了技术保障。

数据集最近研究