llmail-inject-challenge

Name: llmail-inject-challenge
Creator: Microsoft
Published: 2025-05-14 21:47:13
License: 暂无描述

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/microsoft/llmail-inject-challenge

下载链接

链接失效反馈

官方服务：

资源简介：

LLMail-Inject数据集包含了大量攻击性提示，这些提示是在一个名为“LLMail-Inject: Adaptive Prompt Injection Challenge”的比赛中收集的。该数据集用于研究在模拟的LLM集成电子邮件客户端LLMail服务中规避提示注入防御。LLMail服务包括一个助手，该助手可以根据用户的电子邮件回答问题并在用户不知情的情况下执行操作，例如发送电子邮件。由于该助手使用了指令微调的大语言模型（LLM），因此包括了几种针对间接提示注入攻击的防御措施。

提供机构：

Microsoft

创建时间：

2025-05-02

原始信息汇总

数据集概述

基本信息

名称: LLMail-Inject: Adaptive Prompt Injection Challenge
许可证: MIT
任务类别: 文本生成文本 (text2text-generation)
规模: 100K < n < 1M
配置:
- 默认配置:
  - Phase1: data/raw_submissions_phase1.jsonl
  - Phase2: data/raw_submissions_phase2.jsonl

数据集内容

来源: 来自已关闭的LLMail-Inject挑战赛的攻击提示集合。
代码库: GitHub代码库

挑战赛详情

目标

攻击者通过发送电子邮件绕过LLM集成的电子邮件客户端（LLMail服务）的防御，诱使LLM执行未授权的操作。

系统设计与工作流程

攻击者: 发送电子邮件，目标是触发未授权的API调用。
用户: 与LLMail服务交互。
电子邮件数据库: 存储模拟电子邮件和攻击者的电子邮件。
LLM: 处理用户请求并生成响应。
防御机制: 包括多种防御措施以防止提示注入攻击。

场景与级别

场景1: 无检索的两封电子邮件。
场景2: 无检索的十封电子邮件。
场景3: 带检索的十封电子邮件。
场景4: 带检索和数据泄露的十封电子邮件。
总级别数: 40个。

防御措施

Spotlighting: 标记数据以防止执行。
PromptShield: 黑盒分类器检测提示注入。
LLM-as-a-judge: 使用LLM检测攻击。
TaskTracker: 分析模型内部状态检测任务漂移。
组合防御: 同时使用所有防御措施。

使用的LLM

开源模型: microsoft/Phi-3-medium-128k-instruct。
闭源模型: GPT-4o mini。

数据集格式

python { raw_submissions_phase1: [], # 370724项 raw_submissions_phase2: [], # 90916项 scenarios: {}, # 场景元信息 system_prompt: {}, # 系统提示 labelled_unique_submissions_phase1: {}, # 160741项 labelled_unique_submissions_phase2: {}, # 37303项 emails_for_fp_tests: [], # 203项 levels_descriptions: {}, # 级别描述 objectives_descriptions: {} # 目标描述 }

详细内容

原始提交: 包含攻击提示的电子邮件主题和正文。
标记的唯一提交: 包含API触发或LLM判断的标签。
元数据:
- 场景: 包含电子邮件、用户查询和任务描述。
- 系统提示: 包含LLM的提示和工具提示。

引用

TODO

搜集汇总

数据集介绍

构建方式

LLMail-Inject数据集源自微软组织的自适应提示注入挑战赛，通过模拟LLM集成邮件客户端环境收集攻击样本。研究团队设计了包含40个难度等级的挑战框架，参与者需针对不同场景（无检索/带检索的邮件摘要、数据渗出等）构造绕过防御机制的恶意提示。数据采集分为两个阶段：第一阶段采用基础防御策略（如Spotlighting、PromptShield等），第二阶段引入增强型防御和输入净化机制，最终形成包含46万条攻击提示的语料库。所有提交均通过自动化系统记录攻击内容、场景参数及防御触发状态，确保数据标注的客观性。

特点

该数据集的核心价值在于其高度仿真的对抗性样本特性。攻击提示涵盖直接指令、语义混淆、上下文伪装等多种注入技术，且每个样本均关联多维元数据（如防御触发标志、API调用状态）。独特之处在于包含4种差异化攻击场景和5类组合防御机制的交互记录，其中34%的样本成功突破至少一道防御层。数据经过去重处理后保留16万条独特攻击模式，并附加203封正常邮件作为负样本，为研究提示注入检测提供了宝贵的对抗性测试基准。

使用方法

研究者可通过HuggingFace获取分阶段存储的JSONL格式数据，其中raw_submissions文件包含原始攻击文本与元数据，labelled_unique_submissions提供去重后的标注样本。典型应用包括：1) 构建提示注入检测模型时，利用scenarios.json中的场景描述重构攻击上下文；2) 分析system_prompt.json可复现防御策略的提示工程细节；3) 通过objectives_descriptions.json的标记体系评估模型抗攻击能力。需注意使用时需遵循MIT协议，且因含恶意指令内容建议在隔离环境进行实验。

背景与挑战

背景概述

LLMail-Inject数据集由微软研究团队于2025年推出，旨在探索大型语言模型（LLM）在模拟电子邮件客户端环境中的安全漏洞。该数据集源于一项公开挑战赛，聚焦于对抗性提示注入攻击的防御机制研究。研究团队通过模拟LLM集成邮件服务场景，构建了包含40个攻击级别的测试框架，涉及四种不同检索配置和多种防御策略的组合。这一工作填补了LLM在现实应用场景中安全评估的数据空白，为理解提示注入攻击的适应性特征提供了重要实证基础。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决动态对抗环境下提示注入攻击的检测难题，特别是当攻击者已知防御策略时如何保持系统鲁棒性；在构建过程中，研究团队需平衡攻击场景的多样性（如普通指令注入与数据渗出攻击）与评估标准的统一性，同时处理不同LLM（开源Phi-3与商用GPT-4o）在API调用格式上的异构性问题。防御机制的动态升级（如Phase2引入的高精度阻止列表）进一步增加了数据标注的复杂性，要求设计能同时捕捉攻击成功率和防御有效性的多维评估体系。

常用场景

经典使用场景

在大型语言模型安全研究领域，LLMail-Inject数据集为探索提示注入攻击与防御机制提供了独特的研究平台。该数据集通过模拟真实电子邮件客户端环境，构建了包含40种不同防御配置的挑战场景，研究人员可借此系统评估各类提示注入攻击在多样化防御策略下的有效性。数据集特别适用于测试模型在面临精心设计的对抗性提示时的鲁棒性，为理解模型漏洞提供了标准化实验框架。

解决学术问题

该数据集有效解决了提示注入攻击研究中缺乏真实场景数据的核心问题。通过收集超过46万条对抗性提示样本，研究者可深入分析攻击模式与防御失效的内在机理。其多层次实验设计（包含检索增强生成、数据渗出等复杂场景）为研究模型在上下文学习中的安全边界提供了关键数据支持，显著推进了可信AI领域关于对抗鲁棒性的理论研究。

衍生相关工作

该数据集已催生多项重要研究，包括Abdelnabi等人提出的自适应攻击检测框架，以及后续关于防御策略组合优化的系列工作。在NeurIPS 2025的可靠AI挑战赛中，超过60%的参赛方案采用该数据集进行基准测试，其中12个优胜方案提出的新型防御机制已被集成至工业级LLM安防系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集