SecureBreak

Name: SecureBreak
Creator: 帕维亚大学·电气、计算机与生物医学工程系
Published: 2026-03-23 21:41:05
License: 暂无描述

arXiv2026-03-23 更新2026-03-25 收录

下载链接：

https://github.com/VIGNESH-KUMAR-KEMBU/SecureBreak

下载链接

链接失效反馈

官方服务：

资源简介：

SecureBreak是由帕维亚大学团队开发的面向AI安全的数据集，旨在检测大语言模型因安全对齐缺陷产生的有害输出。该数据集包含3059条经过人工标注的文本样本，数据源自对Llama、Qwen等主流开源模型在JailbreakBench对抗性提示下生成响应的系统收集，采用双人标注机制确保标注一致性（Cohen's Kappa=0.85）。其核心价值在于构建生成后过滤模块，既可作为阻断有害内容的最终防线，又能通过监督信号优化模型对齐流程，主要应用于AI安全、内容审核和伦理对齐研究领域。

SecureBreak is a dataset developed by the team from the University of Pavia for AI safety, aiming to detect harmful outputs generated by large language models (LLMs) due to safety alignment flaws. This dataset contains 3059 manually annotated text samples, which are systematically collected from the responses of mainstream open-source models such as Llama and Qwen under adversarial prompts from JailbreakBench. It adopts a double annotation mechanism to ensure annotation consistency (Cohen's Kappa = 0.85). Its core value lies in building post-generation filtering modules, which can not only serve as the final line of defense for blocking harmful content, but also optimize the model alignment process through supervision signals. It is mainly applied in the research fields of AI safety, content moderation and ethical alignment.

提供机构：

帕维亚大学·电气、计算机与生物医学工程系

创建时间：

2026-03-23

原始信息汇总

SecureBreak 数据集概述

数据集基本信息

数据集名称： SecureBreak
核心用途： 专门用于将响应分类为安全或不安全，旨在支持开发可靠的响应级别分类器。
版本： 1.0
数据格式： CSV
数据规模： 包含 3059 条记录。
特征数量： 9 个特征。

搜集汇总

数据集介绍

构建方式

在大型语言模型安全对齐领域，SecureBreak数据集的构建体现了严谨的实证研究范式。其核心流程始于对现有对抗性基准JailbreakBench的利用，该基准提供了涵盖虚假信息、物理伤害、隐私侵犯等十个政策类别的有害问题。研究团队选取了包括Llama、Qwen、Gemma和Mistral在内的多个不同规模的模型家族，使用这些有害提示词生成响应，以捕捉不同模型在对抗性语境下的行为差异。随后，所有生成的响应均经由两名专业标注员进行保守式人工标注，严格区分安全与不安全类别，并通过计算科恩卡帕系数确保了高达0.85的标注者间一致性，从而奠定了数据集高质量与高可靠性的基石。

使用方法

该数据集的核心用途在于训练和评估用于检测大型语言模型不安全输出的二元分类器。研究人员可将数据集划分为训练集与测试集，利用其‘Response’（响应文本）和‘Human’（人工标注标签）字段，对选定的语言模型进行监督式微调。实验表明，基于SecureBreak微调后的模型，其安全分类准确率相较基础模型有显著提升。训练得到的分类器可集成至模型部署管道中，充当生成后过滤层，作为阻断有害内容的最终防线。同时，分类器输出的安全评估信号亦可反馈至模型对齐优化流程，用于诊断安全对齐的残余弱点，并指导后续的再对齐训练，从而形成从评估到防御再到优化的闭环安全增强工作流。

背景与挑战

背景概述

随着大语言模型在众多现实应用中的核心地位日益凸显，其安全对齐已成为确保模型安全部署的关键前提。由意大利帕维亚大学研究人员Marco Arazzi、Vignesh Kumar Kembu和Antonino Nocera于2026年提出的SecureBreak数据集，正是针对这一核心研究问题而构建。该数据集旨在为大语言模型安全对齐中的残余弱点检测提供支持，专门用于训练能够识别由越狱攻击等对抗性手段引发的有害输出的AI驱动解决方案。SecureBreak的构建基于JailbreakBench中的有害提问，通过多个不同规模的模型生成响应，并采用保守的人工标注流程以确保标签的高可靠性。其影响力在于为开发后生成过滤模块提供了高质量数据基础，同时能够为对齐优化过程生成监督信号，从而推动大语言模型安全性与可靠性的实质性提升。

当前挑战

SecureBreak数据集致力于应对大语言模型安全领域的两大核心挑战。在领域问题层面，其直接针对模型安全对齐的残余弱点问题，即现有对齐机制无法完全消除有害内容生成，尤其是在面对精心设计的越狱攻击时，模型可能输出涉及虚假信息、经济损害、专家建议滥用等多元风险类别的有害响应。构建过程中的挑战则体现在数据采集与标注的复杂性上。为确保数据质量与代表性，研究团队需从现有对抗性基准中筛选提问，并利用多个不同架构与规模的模型生成响应，以捕捉模型行为的细微差异。更为关键的是，标注过程依赖于专家人工完成，需在存在轻微意见分歧时采取保守策略以优先保障安全性，并通过计算科恩卡帕系数等指标维持高标注一致性，这对标注者的专业知识与耗时投入提出了显著要求。

常用场景

经典使用场景

在大型语言模型安全对齐领域，SecureBreak数据集主要用于训练和评估响应级别的安全分类器。该数据集通过人工标注的LLM响应，构建了二元分类任务，旨在识别由越狱攻击等对抗性手段引发的有害输出。其经典应用场景在于作为后生成过滤模块的训练基准，为模型部署提供最终防御层，确保即使内部对齐机制失效，也能有效拦截不安全内容。

解决学术问题

SecureBreak致力于解决大型语言模型安全对齐中的残余弱点检测问题。传统研究多聚焦于模型架构与对齐方法，但无法完全消除有害生成，该数据集通过响应级别分类填补了这一空白。它使研究者能够量化对齐失败案例，评估模型在对抗性提示下的脆弱性，并为优化安全对齐流程提供监督信号，从而推动更鲁棒的安全机制发展。

实际应用

在实际部署中，SecureBreak可用于构建AI驱动的安全过滤系统，集成于LLM生成管道。作为预过滤器，它能识别并拦截恶意提示；作为后过滤器，则能审查并阻止有害输出流向用户。该数据集尤其适用于医疗、金融等高危领域，帮助开发符合伦理标准的对话系统，增强模型在真实场景中的可靠性与合规性。

数据集最近研究