five

MLCommons Jailbreak Attack Taxonomy

收藏
github2026-04-21 更新2026-04-23 收录
下载链接:
https://github.com/mlcommons/jailbreak-taxonomy
下载链接
链接失效反馈
官方服务:
资源简介:
一个基于机制优先的分类,针对大型语言模型的单轮推理时间提示攻击,由MLCommons AI风险与可靠性(AIRR)工作组开发。该分类法旨在帮助防御者、研究人员和标准机构了解已知攻击机制的概况。

A mechanism-prioritized taxonomy of single-turn inference-time prompt attacks against large language models (LLMs), developed by the MLCommons AI Risk and Reliability (AIRR) Working Group. This taxonomy is designed to help defenders, researchers, and standards bodies gain an overview of the landscape of known attack mechanisms.
创建时间:
2026-04-11
原始信息汇总

MLCommons Jailbreak Attack Taxonomy 数据集概述

数据集基本信息

  • 数据集名称:MLCommons Jailbreak Attack Taxonomy
  • 维护组织:MLCommons AI Risk and Reliability (AIRR) 工作组
  • 版本:0.7.0
  • 许可证:Creative Commons Attribution 4.0 International License (CC-BY-4.0)
  • 访问地址:https://github.com/mlcommons/jailbreak-taxonomy

数据集目的与性质

  • 目的:对大型语言模型在推理时遭受的单轮提示攻击,提供一种基于攻击机制的、机制优先的分类方法。旨在帮助防御者、研究人员和标准制定机构理解已知攻击机制的概况。
  • 性质:该分类法并非发现或创造新的攻击,而是对已发表在学术文献、实践者报告或通过开放贡献流程提交的越狱技术进行组织和分类。它是一个公开的已知越狱机制集合,与私有的基准测试相分离。

分类体系结构

  • 层级结构:采用“族 (Family) > 类别 (Category) > 叶节点 (Leaf)”的三层层次结构。
  • 分类原则:基于“提示在推理时如何操纵模型”这一主导机制进行分类,而非根据攻击目标或产生的结果。
  • 统计概览
    • 族 (Families):4个
    • 类别 (Categories):8个
    • 叶节点机制 (Leaf-level mechanisms):18个
    • 收录的攻击实例 (Attack instances):113个

四大攻击族概览

占比 类别数 叶节点数 描述
Perturbation 36.28% 2 4 修改表面形式,同时保留语义意图
Encoding Abuse 20.35% 2 5 操纵表示或结构格式
Overt Carriers 19.47% 2 4 施加明确的修辞压力或叙事框架
Composition & Ordering 23.89% 2 5 安排提示结构以嵌入有害目标

核心设计原则

分类法满足以下六项设计要求:

  1. 机制优先的归类:分类取决于提示中可观察到的主导绕过机制。
  2. 单实例到单叶节点的映射:每个攻击实例恰好映射到一个叶节点,实现确定性标记。
  3. 一致的分割规则:每个内部节点应用单一明确的轴来区分其子节点。
  4. 可执行性与语料库适用性:每个叶节点支持具体、可测试的提示实例。
  5. 考虑流行度的验证:记录经验流行度以指导平衡抽样。
  6. 覆盖主要族:涵盖文献中观察到的所有主要提示操纵策略。

内容与文件结构

数据集仓库主要包含以下内容:

  • taxonomy/taxonomy.yaml:机器可读的分类法结构。
  • taxonomy/attacks.yaml:机器可读的攻击目录,包含113个攻击的论文链接、代码库和模型覆盖信息。
  • taxonomy/taxonomy-overview.md:人类可读的摘要,包含树状图。
  • taxonomy/attacks-overview.md:按族组织的、可折叠的完整攻击目录(113个攻击)。
  • taxonomy/families/:包含四个攻击族的详细文档。
  • DATASET.md:遵循Gebru等人框架的数据集文档。
  • governance/:包含维护者信息、审查流程等治理文件。

目标用户与使用建议

  • 研究人员:从分类法概述开始,阅读族和叶节点文档以了解机制细节,使用攻击目录查阅所有实例。
  • 安全团队与红队实践者:利用叶节点文档,按机制族构建红队演练,流行度数据有助于确定测试优先级。
  • 标准制定机构与政策制定者:在指定评估要求或评估基准覆盖范围声明时参考此分类法。
  • 贡献者:可通过开放的贡献流程提议新机制、添加新攻击或改进文档。

版本管理

  • 采用语义化版本控制:
    • 主版本号:增加新的第一层级族或进行根本性重构时更新。
    • 次版本号:添加新的叶节点或类别,或精炼现有叶节点时更新。
    • 修订号:文档修正、示例更新、元数据更正时更新。
  • 每月发布稳定性快照。

引用信息

若使用或引用此分类法,请引用相关论文:

  • v0.7 Jailbreak Methodology Paper (2026):提供了方法论基础。
  • v0.5 Jailbreak Benchmark Paper (2025):介绍了基准测试。
  • AILuminate v1.0 Safety Benchmark Paper (2025):介绍了更广泛的安全基准。

(具体的BibTeX条目请参见提供的README内容。)

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全领域,系统化地识别和分类对抗性攻击手段是构建稳健防御体系的基础。MLCommons Jailbreak Attack Taxonomy 的构建并非旨在发明新的攻击方法,而是对学术界、实践报告及社区贡献中已公开的越狱攻击技术进行系统化的整理与归类。该分类法采用机制优先的原则,依据推理时提示词操纵模型的核心机制,将已知的113种攻击实例组织成一个三层级的树状结构,涵盖家族、类别和叶节点。其构建严格遵循六项设计需求,包括机制优先的归类、攻击实例与叶节点的一一映射、一致的分割规则等,确保了分类体系的严谨性与可执行性。
使用方法
该分类法为不同角色的使用者提供了明确的应用路径。研究人员可通过查阅人类可读的分类概览与攻击目录,深入理解各类攻击机制的原理与实例,并利用机器可读的YAML文件进行自动化分析。安全团队与红队人员可依据叶级机制的文档,设计覆盖不同攻击家族的测试方案,并参考流行度数据优化测试资源的分配。对于标准制定机构与政策制定者而言,该分类法可作为评估基准覆盖范围与制定安全要求的权威参考框架。此外,社区贡献者可通过既定的流程提交新的攻击机制或改进建议,共同推动分类体系的完善。
背景与挑战
背景概述
随着大型语言模型在诸多领域的广泛应用,其安全性与可靠性问题日益凸显,尤其是针对模型的越狱攻击已成为人工智能安全领域的关键挑战。MLCommons Jailbreak Attack Taxonomy 由 MLCommons AI Risk and Reliability 工作组于2025年至2026年间主导开发,旨在系统性地分类与组织单轮推理时针对大型语言模型的提示攻击机制。该数据集并非创造新型攻击,而是对已发表的学术文献、实践报告及社区贡献的越狱技术进行机制优先的分类,构建了一个包含四个家族、八个类别及十八个叶级机制的层次化体系。其核心研究问题在于如何为防御者、研究人员及标准制定机构提供一个清晰、可操作的攻击机制全景图,以促进模型安全评估与防御策略的标准化,对推动人工智能风险治理的实证研究具有重要影响力。
当前挑战
该数据集致力于解决大型语言模型安全评估中越狱攻击机制的系统化分类挑战,其核心在于如何将多样化的攻击技术按照统一的机制原则进行准确归类,确保分类体系既能覆盖已知攻击变体,又能适应未来新型攻击的纳入。在构建过程中,面临多重挑战:首先,攻击机制往往具有交叉性与模糊性,需确立严格的机制优先分类准则,避免基于攻击目标或结果的混淆;其次,数据收集依赖于分散的学术文献与实践报告,需保证来源的可靠性与时效性,同时通过开放贡献流程整合社区输入,维持分类的全面性与动态更新;此外,分类体系需满足可执行性与语料适用性要求,确保每个叶级机制都能对应具体可测试的提示实例,并为基准测试提供独立且保密的子集选择,以维护评估的公正性与防御策略的有效性。
常用场景
经典使用场景
在大型语言模型安全评估领域,MLCommons Jailbreak Attack Taxonomy 为系统化分类已知越狱攻击机制提供了结构化框架。该数据集通过机制优先的分类原则,将单轮推理时提示攻击划分为扰动、编码滥用、显性载体以及组合排序四大族系,每个族系下进一步细分为类别与叶节点机制。研究人员和安全团队可依据此分类体系,对攻击策略进行层次化解析与测试,从而全面覆盖不同攻击手法的技术特征与防御需求。
解决学术问题
该数据集解决了大型语言模型安全研究中攻击机制分类混乱、评估标准不统一的核心问题。通过构建层次化、机制驱动的分类体系,它为学术界提供了清晰、可复现的攻击类型界定,促进了防御策略的针对性开发。其意义在于建立了标准化的话语体系,使得不同研究之间的攻击与防御效果可比,推动了模型安全评估从经验性向系统化、科学化的转变,为后续基准测试与方法论研究奠定了坚实基础。
实际应用
在实际应用中,该数据集被安全团队和红队人员用于指导针对性的对抗测试与漏洞挖掘。通过参照分类中的叶节点机制,实践者可以设计覆盖不同攻击策略的测试用例,系统化评估模型在面临扰动、编码滥用等多样化攻击时的鲁棒性。同时,标准制定机构和政策制定者也可依据该分类体系,明确安全评估的范围与要求,确保行业基准测试的全面性与公正性,从而提升人工智能系统在实际部署中的安全可靠性。
数据集最近研究
最新研究方向
在大型语言模型安全领域,针对越狱攻击的防御机制研究正成为前沿焦点。MLCommons越狱攻击分类法通过机制优先的分类原则,将已知攻击归纳为扰动、编码滥用、显性载体及组合排序四大族系,为系统化评估模型脆弱性提供了结构化框架。当前研究热点集中于跨族系攻击的迁移性分析,以及基于分类法的自适应防御策略设计,旨在提升模型对多样化提示操纵的鲁棒性。该分类法的出现推动了行业安全基准的标准化进程,促使学术界与产业界协同探索可解释的对抗性攻击缓解方案,对构建可信赖的人工智能生态系统具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作