five

distillation_attack_dataset

收藏
github2026-02-28 更新2026-03-01 收录
下载链接:
https://github.com/Validia-AI/distillery
下载链接
链接失效反馈
官方服务:
资源简介:
一个生产级的Python管道,用于使用OpenAI API生成54,000个合成蒸馏攻击提示。该数据集设计用于训练检测分类器和行为指纹系统,以识别LLM模型提取攻击。数据集包含41,500个攻击提示(77%)和12,500个良性提示(23%),覆盖6种攻击类别和10种语言。

A production-grade Python pipeline for generating 54,000 synthetic distillation attack prompts using the OpenAI API. This dataset is designed for training detection classifiers and behavior fingerprinting systems to identify LLM model extraction attacks. It contains 41,500 attack prompts (77%) and 12,500 benign prompts (23%), covering 6 attack categories and 10 languages.
创建时间:
2026-02-28
原始信息汇总

Distillery 数据集概述

数据集简介

Distillery 是一个用于生成合成蒸馏攻击提示词的生产级 Python 流水线。该数据集旨在训练检测分类器和行为指纹识别系统,以识别针对大型语言模型的模型提取攻击。

数据集规模与构成

总提示词数量:54,000 条

  • 攻击性提示词:41,500 条(占总数的 77%),涵盖 6 种攻击类别。
  • 良性提示词:12,500 条(占总数的 23%),用于二元分类。

攻击类别细分

类别 数量 占比 目的
思维链诱导 12,500 25% 提取用于训练数据的推理轨迹
能力映射 10,000 20% 系统性地映射模型能力
工具使用提取 7,500 15% 强制代理工具编排
奖励模型评分 5,000 10% 生成 RLHF 偏好数据
安全边界探测 4,000 8% 映射拒绝策略
审查改写 2,500 5% 策略适应训练

语言分布

  • 英语:60%
  • 中文:15%
  • 日语:5%
  • 韩语:3%
  • 法语:4%
  • 德语:3%
  • 俄语:3%
  • 西班牙语:4%
  • 阿拉伯语:2%
  • 印地语:1%

复杂度等级

每个提示词被分配一个复杂度等级,该等级决定了所需的推理难度和领域知识。

等级 分布 描述 推理步骤 知识水平
20% 具有基础领域知识的单步推理 1 步 基础/入门级
40% 具有中等领域知识的多步推理 2-3 步 中等/本科级
30% 具有高级领域知识的扩展推理链 4+ 步 高级/研究生级
专家 10% 需要专业知识的科研级难度 复杂/开放式 科研/专家级

数据模式

每个提示词是一个 JSON 对象,包含以下关键字段:

  • id:唯一标识符。
  • prompt_text:发送给 API 的实际提示词文本。
  • attack_category:7 个类别之一(6 个攻击类别 + 1 个良性类别)。
  • subcategory:细粒度分类。
  • target_capability:此提示词针对的能力。
  • task_domain:任务领域(数学、计算机科学、法律、医学等)。
  • language:ISO 639-1 语言代码。
  • complexity:任务难度等级(低、中、高、专家)。
  • elicitation_techniques:用于提取信息的方法。
  • detection_signals:用于检测的可观察模式。

主要用途

  1. 检测分类器训练:训练机器学习模型以区分攻击流量与良性流量。
  2. 行为指纹识别:通过流量模式识别蒸馏攻击活动。
  3. 红队测试:测试 API 防御措施对提取攻击的抵御能力。
  4. 安全研究:研究攻击方法和检测信号。
  5. 策略制定:为速率限制和滥用检测策略提供信息。

局限性

  • 合成数据:提示词是生成的,并非真实的攻击流量。
  • 覆盖范围:可能无法涵盖所有现实世界的攻击变体。
  • 语言质量:非英语提示词可能存在质量差异。
  • 攻击演变:真实的攻击者会持续调整技术。

伦理与负责任使用

该数据集仅用于防御性安全研究。应用于:

  • 训练检测系统。
  • 改进 API 滥用检测。
  • 研究攻击模式。
  • 制定防御性对策。

请勿用于

  • 实施实际的蒸馏攻击。
  • 提取专有模型。
  • 违反服务条款。
  • 促成恶意用途。

引用

如果使用此数据集,请引用: bibtex @dataset{vann2025distillery, author = {Vann, Paul}, title = {Distillery: A Dataset of Modern Distillation Attacks Against AI Models}, year = {2026}, publisher = {Validia}, url = {https://huggingface.co/datasets/validia/distillery} }

搜集汇总
数据集介绍
构建方式
在大型语言模型安全研究领域,蒸馏攻击数据集通过合成生成方法构建,旨在模拟现实世界中的模型提取行为。该数据集利用OpenAI API,通过一个生产级的Python管道生成了总计54,000条合成提示。其构建过程以精心设计的种子提示为基础,覆盖了六大攻击类别,包括思维链诱导、能力映射、工具使用提取等,并辅以良性提示用于二元分类。生成过程采用了结构化输出强制与检查点恢复机制,确保了数据格式的一致性与生成任务的可靠性,同时通过会话内去重技术保障了每条提示的唯一性。
特点
该数据集展现出多维度、结构化的显著特点。在构成上,它包含了41,500条攻击提示与12,500条良性提示,形成了均衡的二元分类基础。攻击提示进一步细分为六个具有明确目的的类别,例如思维链诱导旨在提取推理轨迹,而安全边界探测则用于映射模型的拒绝策略。数据集在语言上覆盖了包括英语、中文在内的十种语言,并依据推理步骤与知识深度定义了从低到专家的四个复杂度等级,从而全面模拟了从基础查询到专业级难题的完整攻击难度谱系。每条数据均遵循严格的JSON模式,包含了攻击类别、目标能力、检测信号等丰富元数据字段。
使用方法
该数据集主要服务于防御性安全研究,其使用方法清晰明确。研究人员可通过运行项目中的生成脚本,利用预设的配置与种子文件,完整复现数据集的构建过程。生成的结果以JSONL格式保存,便于后续的读取与分析。该数据集的典型应用场景包括训练检测分类器以区分攻击流量与正常流量,进行行为指纹分析以识别持续的蒸馏攻击活动,以及作为红队测试工具来评估API防御机制的有效性。在使用时,必须严格遵守其设定的伦理准则,仅将其用于提升模型安全性与开发防御对策,严禁用于实施实际的模型提取攻击或任何恶意目的。
背景与挑战
背景概述
蒸馏攻击数据集(distillation_attack_dataset)由研究人员Paul Vann于2026年发布,旨在应对大型语言模型(LLM)面临的模型提取威胁。该数据集通过OpenAI API生成了54,000条合成提示,模拟了针对Claude、Gemini和ChatGPT等模型的真实蒸馏攻击场景,如Anthropic、Google和OpenAI所披露的案例。其核心研究问题聚焦于如何有效检测和防御通过系统性API查询窃取模型能力的攻击行为,为安全社区提供了训练检测分类器和行为指纹识别系统的重要资源,推动了AI安全领域在对抗模型提取方面的实证研究进展。
当前挑战
该数据集致力于解决LLM模型提取攻击的检测挑战,即如何从海量API交互中准确识别旨在蒸馏模型能力(如推理轨迹、工具使用演示)的恶意查询。构建过程中的挑战包括:生成高质量、多样化的合成攻击提示以覆盖六类攻击策略(如思维链诱导、能力映射);确保多语言分布与复杂性分级的真实性;以及通过结构化输出和去重机制维持数据的一致性与独特性,同时需在合成数据的局限性与真实攻击的快速演化之间保持平衡。
常用场景
经典使用场景
在人工智能安全领域,模型蒸馏攻击已成为威胁大型语言模型知识产权的重要形式。Distillation Attack Dataset 最经典的使用场景在于为安全研究人员提供训练攻击检测分类器的基准数据。该数据集通过模拟六类攻击策略和四层复杂度梯度,构建了涵盖推理轨迹提取、能力映射、工具调用诱导等攻击行为的五万四千条合成提示词,使防御系统能够在真实攻击发生前识别其行为特征。
实际应用
在实际应用层面,该数据集已被集成到多个云服务厂商的API安全防护体系中。基于此数据训练的检测模型能够实时分析用户查询模式,识别具有系统化知识提取特征的可疑会话。例如在 Anthropic、Google 等公司的安全实践中,类似数据被用于构建行为指纹系统,通过分析提示词的语义结构、会话时序特征和资源访问模式,实现对蒸馏攻击活动的早期预警与自动拦截。
衍生相关工作
该数据集衍生出多个经典研究方向,包括基于图神经网络的攻击路径重构、多模态攻击意图识别框架等。在学术领域,研究者利用其细粒度标注开发了 ATTACK2VEC 嵌入模型,将攻击技术映射到连续向量空间进行聚类分析。工业界则基于该数据集构建了 DistillGuard 实时检测系统,通过集成元提示分析和会话行为建模,实现了对复杂蒸馏攻击链的端到端识别,相关成果已被纳入 MITRE ATLAS 对抗性威胁知识图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作