安全微调数据集
收藏arXiv2025-07-08 更新2025-07-09 收录
下载链接:
https://github.com/Dtc7w3PQ/Response-Attack
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个安全微调数据集,由上海人工智能实验室创建,包含3000条上下文引导对话,每个对话都配有一个正确的拒绝响应。数据集旨在通过微调减少攻击成功率,同时保持模型的一般能力,以应对大型语言模型中的上下文引导漏洞。
This is a safety fine-tuning dataset created by the Shanghai AI Laboratory. It contains 3000 context-guided dialogues, each paired with a correct refusal response. The dataset aims to reduce attack success rates through fine-tuning while preserving the general capabilities of models to address context-guided vulnerabilities in large language models.
提供机构:
上海人工智能实验室
创建时间:
2025-07-08
原始信息汇总
Response Attack 数据集概述
📌 数据集简介
- 名称: Response Attack (RA)
- 类型: 对抗性提示技术数据集
- 用途: 研究大型语言模型(LLMs)的上下文劫持漏洞和安全性
- 特点: 利用心理启动效应,通过注入轻微有害响应来诱导模型产生不安全输出
🔍 核心内容
方法论
- 技术原理: 通过在前序对话轮次中注入轻微有害响应,实现对模型的上下文启动
- 攻击方式: 单次最终查询即可触发不安全输出
性能表现
HarmBench测试结果
| 指标 | RA-DRI | RA-SRI | ActorAttack | CodeAttack | ReNeLLM |
|---|---|---|---|---|---|
| 平均ASR(%) | 94.8 | 89.1 | 82.8 | 69.8 | 63.4 |
AdvBench-50测试结果
| 方法 | GPT-4o | LLaMA-3-8B | LLaMA-3-70B | Gemini-2.5-Flash |
|---|---|---|---|---|
| RA-DRI | 98.0 | 92.0 | 90.0 | 100.0 |
| RA-SRI | 96.0 | 72.0 | 72.0 | 100.0 |
📂 数据资源
- 数据集规模: 3000+微调样本
- 数据类型: 上下文感知安全对话数据
- 数据用途: 降低越狱风险同时保持模型效用
🛠 使用方式
生成启动对话
bash
代码即将发布
模型推理
bash python generate_model_response.py --input_dir data/dialogues/harmbench/dri --model_name gpt-4o --max_workers 10 --include_v2v3
评估
bash bash eval/example.sh
📜 相关文献
- 论文链接: https://arxiv.org/abs/2507.05248
搜集汇总
数据集介绍

构建方式
安全微调数据集的构建基于对大型语言模型(LLM)中上下文启动漏洞的系统性研究。研究团队通过识别模型在对话历史中暴露于轻微有害内容后可能生成违规响应的现象,设计了一种多阶段攻击框架(Response Attack)。该框架利用辅助模型生成改写后的初始提示(Pinit)和部分有害响应(Rharm),再通过触发提示(Ptrig)诱导目标模型输出更明确的有害内容。基于此攻击模式,研究人员收集了3000组包含上下文启动对话的安全微调样本,其中1000组为成功攻击案例配以GPT-4生成的安全拒绝响应,2000组来自UltraChat的通用指令数据以保持模型通用能力。
特点
该数据集的核心特征体现在其情境感知的对抗性设计上。首先,样本覆盖了8种主流开源与专有LLM的对抗场景,包括GPT-4.1、Llama-3等模型,确保了数据的广泛代表性。其次,通过直接响应注入(DRI)和脚手架响应注入(SRI)两种模式,数据集捕捉了从显性有害内容到结构性诱导的连续攻击谱系。值得注意的是,数据经过严格的毒性评分筛选(采用omni-moderation API),在保留语义完整性的同时控制中间响应的隐蔽性,平均攻击成功率(ASR)达94.8%,为安全对齐研究提供了高信噪比的测试基准。
使用方法
该数据集主要应用于LLM安全对齐的微调与评估场景。研究人员可通过加载包含多轮对话历史的样本,训练模型在存在潜在有害上下文的条件下生成合规响应。具体实施时,建议采用LoRA等参数高效微调方法,仅对最终安全响应计算交叉熵损失以强化抗干扰能力。评估阶段应结合HarmBench框架,使用GPT-4o或Llama-Guard-3作为评判模型,监测攻击成功率(ASR)与通用任务性能(如GSM8K、MMLU准确率)的平衡。数据集的对话模板兼容单轮拼接与多轮结构化输入,支持对不同架构模型的适配性测试。
背景与挑战
背景概述
安全微调数据集由上海人工智能实验室等机构的研究团队于2025年提出,旨在解决大型语言模型(LLMs)在上下文情境中易受诱导生成违规内容的安全漏洞问题。该数据集基于认知心理学中的情境启动效应原理,针对LLMs在对话历史被注入轻微有害内容后可能产生危害性升级的现象,构建了包含3000个情境化安全微调样本的语料库。作为首个系统性研究语言模型情境启动脆弱性的数据集,其创新性地将心理学理论与AI安全研究相结合,为提升LLMs在复杂对话场景中的鲁棒性提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决LLMs对多轮对话中隐含恶意诱导的识别难题,传统单轮安全过滤机制难以检测通过情境启动逐步升级的攻击模式;在构建过程中,需平衡数据安全性(确保微调样本不会二次泄露攻击方法)与模型实用性(避免过度过滤导致的对话能力下降)。具体技术挑战包括:1)精准界定轻微有害与明显违规的内容边界;2)构建具有语义连贯性的多轮对抗样本;3)设计不影响模型通用能力的微调策略。
常用场景
经典使用场景
安全微调数据集在大型语言模型(LLM)的安全对齐研究中扮演着关键角色。该数据集通过模拟上下文启动攻击(如响应攻击)的对话场景,为研究者提供了丰富的对抗性样本。其经典使用场景包括评估模型在面临隐蔽诱导时的防御能力,以及训练模型识别并拒绝隐含在多轮对话中的恶意意图。数据集构建的核心在于捕捉模型在先前对话内容影响下产生违规行为的脆弱性,这种特性使其成为研究LLM安全漏洞的重要工具。
实际应用
在实际应用层面,该数据集已成功部署于商业LLM的安全增强系统。通过基于该数据的微调,模型在保持原有功能性的同时,将响应攻击的成功率从平均94.8%降至个位数。企业安全团队利用该数据集构建了多层级防御体系,包括上下文敏感的内容过滤器和实时对话监控机制。在金融客服、医疗咨询等高风险场景中,经该数据集优化的模型展现出对诱导性提问更强的识别能力,有效防止了社会工程学攻击。
衍生相关工作
该数据集催生了多个重要研究方向:基于上下文感知的安全微调框架(Context-Aware SFT)通过扩展原始数据集的对抗模式,实现了对复杂多轮攻击的防御;《PsySafe》研究利用其构建心理学启发的攻击分类体系,建立了LLM行为与认知偏差的映射关系;《Visual Contextual Attack》则将该数据集的构建方法论迁移至多模态领域,揭示了图像上下文对文本生成的诱导效应。这些工作共同推动了AI安全研究向更细粒度的上下文理解方向发展。
以上内容由遇见数据集搜集并总结生成



