Benchmarks for Stateful Defenses (BSD)
收藏arXiv2025-06-07 更新2025-06-11 收录
下载链接:
https://github.com/davisrbr/bsd-misuse
下载链接
链接失效反馈官方服务:
资源简介:
宾夕法尼亚大学的研究团队开发了一个名为BSD的数据生成流程,用于评估对隐蔽攻击和相应防御的自动化评估。该流程产生了两个新数据集,这些数据集在前沿模型中一直被拒绝,并且对较弱的开放权重模型来说太难了。数据集包含了生物安全和网络安全问题,旨在评估当前攻击的有效性,并测试状态防御作为对抗措施的效果。
A research team from the University of Pennsylvania has developed a data generation pipeline named BSD for the automated evaluation of stealthy adversarial attacks and their corresponding defensive countermeasures. This pipeline generates two novel datasets that have long eluded state-of-the-art (SOTA) models, while being overly challenging for weaker open-weight models. The datasets encompass biosecurity and cybersecurity scenarios, with the objective of evaluating the effectiveness of current adversarial attacks and testing the efficacy of stateful defensive mechanisms as countermeasures.
提供机构:
宾夕法尼亚大学
创建时间:
2025-06-07
搜集汇总
数据集介绍

构建方式
在人工智能安全领域,针对隐蔽攻击的防御评估一直缺乏有效的基准数据集。BSD数据集的构建采用了一种创新的自动化生成流程,首先利用GPT-4.1对WMDP基准中的生物安全和网络安全问题进行语义转换,生成更具危害性的问题变体。随后通过三重过滤机制确保数据质量:由多个前沿模型验证问题可解答性,安全训练模型筛选拒绝回答的问题,以及开放权重模型测试问题难度。该流程从4800个候选问题中最终筛选出50个生物学和15个网络安全领域的高质量测试用例。
特点
BSD数据集的核心特征体现在其三重验证机制:问题难度需超越开放权重模型的能力边界(C1标准),同时需被安全对齐的前沿模型拒绝(C2标准),但又能被非对齐的强模型正确解答(C3标准)。这种独特设计使BSD区别于传统安全基准,其问题在LAB-Bench评估中与真实生物学研究任务呈现0.94的强相关性,显著高于WMDP基准的0.11相关性。数据集特别关注任务分解攻击场景,包含生物安全和网络安全两大高危领域,其中生物学问题的模型拒绝率超过90%,为评估模型误用提升提供了理想测试环境。
使用方法
该数据集主要用于评估语言模型在隐蔽攻击场景下的安全防御能力。研究者可通过BSD量化两个关键指标:误用提升率(Misuse Uplift)反映强模型对攻击者能力的增强程度,检测率(Detectability)衡量防御系统识别恶意查询序列的效能。典型实验流程包含三个阶段:首先使用弱模型分解恶意任务为良性子查询,然后通过强模型获取子查询响应,最后由弱模型合成最终攻击方案。数据集特别适用于验证状态感知防御(Stateful Defenses)的有效性,即通过分析用户查询序列模式来检测分布式攻击。
背景与挑战
背景概述
Benchmarks for Stateful Defenses (BSD) 是由宾夕法尼亚大学和卡内基梅隆大学的研究团队于2025年提出的数据集,旨在解决现有语言模型安全评估中的关键缺陷。该数据集聚焦于隐蔽攻击策略,即攻击者通过分解恶意任务为多个看似无害的子查询来规避模型的安全防护。BSD通过自动化数据生成流程,构建了包含生物安全和网络安全问题的评估基准,这些问题既难以被弱模型独立解决,又会被前沿模型一致拒绝。BSD的提出填补了现有评估在测量模型滥用提升(misuse uplift)和可检测性方面的空白,为开发状态感知防御机制提供了重要工具。
当前挑战
BSD数据集面临的核心挑战体现在两个方面:领域问题方面,现有安全评估难以检测通过任务分解实现的隐蔽攻击,这类攻击通过组合多个无害查询的结果间接完成恶意目标,传统单次查询检测机制对此无效;构建过程方面,生成既符合前沿模型拒绝标准又超出弱模型能力范围的恶意问题具有较高难度,需通过多轮生成和严格过滤(仅1%候选问题最终入选)。此外,数据集的敏感性导致其无法完全公开,如何在安全研究需求与潜在滥用风险间取得平衡构成另一重挑战。
常用场景
经典使用场景
在人工智能安全领域,Benchmarks for Stateful Defenses (BSD) 数据集被广泛应用于评估语言模型对隐蔽攻击的防御能力。该数据集通过自动化生成具有挑战性的生物安全和网络安全问题,模拟现实世界中攻击者可能采用的分解策略。研究者利用BSD数据集测试前沿模型在拒绝有害请求方面的表现,同时评估较弱但未对齐的开源模型在完成复杂恶意任务时的局限性。这种双重评估机制为开发状态感知防御系统提供了关键基准。
解决学术问题
BSD数据集解决了现有安全评估中的三个核心问题:首先,传统基准测试难度不足,无法有效区分模型能力与安全训练的边界;其次,现有评估忽略了攻击者通过多轮良性查询组合实现恶意目标的策略;最后,该数据集首次量化了'滥用提升'概念,即模型在无形中增强攻击者实施危害的能力。这些问题在生物安全和网络安全等高风险领域尤为重要,BSD通过精心设计的评估框架填补了这一研究空白。
衍生相关工作
BSD数据集催生了多项重要研究:Glukhov等人提出的'安全响应中的信息泄露'框架扩展了分解攻击的理论基础;Rando等开发的对抗性评估方法改进了检测算法的鲁棒性测试;Tamkin团队则受启发建立了CLIO系统,用于追踪跨平台的协同滥用行为。在防御方面,Strom等人将MITRE ATT&CK框架适配到AI安全领域,而Kwa团队则基于BSD的评估逻辑开发了长任务完成度测量工具。这些工作共同推动了动态防御系统的发展。
以上内容由遇见数据集搜集并总结生成



