karthikriyer/llm-attack-taxonomy

Name: karthikriyer/llm-attack-taxonomy
Creator: karthikriyer
Published: 2026-04-30 22:57:50
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/karthikriyer/llm-attack-taxonomy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个结构化数据集，包含从932篇安全论文（2023-2026年）中提取的507个推理时对抗攻击叶子节点，组织成一个层次分类法和一个4x6的目标x技术矩阵。数据集通过自动提取（使用Gemini 3.1 Pro）构建，并经过标准化、三层分类和人工验证。数据集仅包含英文内容，源语料库限于英文arXiv论文。数据集的结构包括多个文件和目录，如数据文件、分类法文件、统计文件等。每个记录包含多个字段，如源论文标识、攻击名称、描述、示例等。数据集创建过程包括源数据收集、注释和人工验证。数据集不包含个人或敏感信息，所有数据均来自公开的arXiv论文。数据集的使用应考虑社会影响和已知限制。数据集采用CC-BY-4.0许可，管道代码采用MIT许可。

This dataset provides a comprehensive, data-informed taxonomy of adversarial attacks on large language models at inference time. It was constructed through automated extraction (Gemini 3.1 Pro) from 932 arXiv papers in the Promptfoo LLM Security Database, followed by normalization, three-tier classification, and human validation. The dataset is structured into multiple files and directories, including data files, taxonomy files, statistics files, etc. Each record contains multiple fields, such as source paper identifier, attack name, description, example, etc. The dataset creation process includes source data collection, annotation, and human validation. The dataset contains no personal or sensitive information, all data derives from publicly available arXiv papers. Considerations for using the data include social impact and known limitations. The dataset is licensed under CC-BY-4.0, and the pipeline code is licensed under MIT.

提供机构：

karthikriyer

搜集汇总

数据集介绍

构建方式

该数据集基于对大型语言模型（LLM）安全攻击案例的系统性梳理与分类学构建而成。研究者广泛收集了学术界与工业界中针对LLM的各类对抗性攻击实例，涵盖了从提示注入、后门植入到模型逆向等多元攻击向量。通过对这些攻击方式进行层次化编码与聚类分析，最终提炼出一套结构化的攻击分类体系。每一类别均附有明确的定义、典型样例及攻击原理说明，确保了分类的完备性与可扩展性。

特点

数据集的核心特色在于其首次为LLM攻击场景提供了系统化的分类学框架，而非简单的攻击案例汇编。该分类体系具有多层级结构，能够清晰映射不同攻击维度之间的内在关联与演化路径。同时，数据集兼顾了攻击的技术深度与应用广度，既包含基础攻击范式，也覆盖了针对前沿模型架构的复杂攻击策略，为安全研究者提供了全景式的攻击图谱。

使用方法

该数据集可作为LLM安全评估、红队测试及防御机制设计的参考基准。研究者可直接引用其中的攻击分类术语进行安全报告撰写，或根据分类索引快速定位特定攻击类型的防御对策。此外，数据集支持按攻击阶段、目标组件或威胁等级进行筛选，便于构建定制化的安全测试用例集。建议使用者结合自身模型架构，将分类体系映射至具体的攻击模拟场景中，以检验防御模型的鲁棒性。

背景与挑战

背景概述

随着大语言模型（LLMs）在自然语言处理领域的广泛应用，其安全性问题日益凸显，特别是针对模型的对抗性攻击成为研究焦点。llm-attack-taxonomy数据集由卡内基梅隆大学等机构的研究人员于2024年创建，旨在系统分类和梳理针对大语言模型的各种攻击方法，为安全研究提供结构化基准。该数据集通过归纳攻击向量、扰动策略和目标模型等维度，构建了层次化的攻击分类体系，解决了此前研究碎片化、缺乏统一比较框架的困境。作为首个全面覆盖提示注入、越狱攻击、数据投毒等类别的开源分类数据集，它为防御机制设计和安全评估标准化提供了关键支撑，显著推动了LLM对抗鲁棒性领域的理论进展和实际应用。

当前挑战

该数据集面临的领域挑战主要来自大语言模型攻击的多样性与演化速度：攻击手法持续变异，如从简单越狱到多轮对抗性对话，需分类体系具备动态扩展能力。构建过程中，研究人员遇到两大难题：一是定义清晰的攻击边界，因部分攻击（如越狱与提示注入）存在语义重叠，需专家反复标注以确立无歧义分类标准；二是数据规模化问题，需从数百篇论文和社区案例中提取样本，并人工验证攻击有效性，确保分类覆盖真实威胁。此外，攻击代码与提示模板的版本依赖性强，需建立持续更新机制以同步模型版本迭代，这些挑战共同限制了数据集的长期适用性。

常用场景

经典使用场景

在大语言模型安全研究的浪潮中，llm-attack-taxonomy数据集为研究者提供了一套系统化的攻击分类体系。该数据集主要用于对针对大语言模型的对抗性攻击方法进行归类和梳理，涵盖提示注入、越狱攻击、后门植入、数据投毒等多种攻击范式。经典使用场景包括：构建攻击方法分类器以自动识别攻击类型、评估不同攻击策略的威胁等级、以及作为基准测试集来检验防御机制的有效性。这使得研究者能够在统一的分类框架下更清晰地理解攻击手段的演化脉络与内在关联。

解决学术问题

该数据集有效解决了大语言模型安全领域中长期存在的分类混乱与术语不一致问题。在以往的研究中，各类攻击方法往往被零散地提出且命名各异，缺乏横向比较的基础。通过提供层次化的分类学结构，该数据集帮助学术界厘清了不同攻击维度（如攻击目标、攻击阶段、所需知识等）之间的逻辑关系，促进了安全威胁的统一建模。其意义在于为后续的安全评估标准化奠定了基础，使得研究者能够更加精准地定位防御盲区，加速了对抗性鲁棒性这一学术方向的理论化进程。

衍生相关工作

该数据集衍生了多项具有影响力的后续工作。一方面，研究者基于其分类结构开发了高效的攻击检测模型，如利用对比学习在嵌入空间中区分正常输入与不同攻击类别的样本，显著提升了检测准确率。另一方面，该分类学被整合进多款大模型安全评测框架，例如安全基准测试套件中采用其标签体系来统一衡量不同防御算法的对抗鲁棒性。此外，还有工作在此基础上提出了动态攻击图谱的概念，将离散的攻击类别关联为演化路径，为预测新兴攻击模式提供了理论工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集