PIArena Benchmark

Name: PIArena Benchmark
Creator: 宾夕法尼亚州立大学
Published: 2026-04-10 01:42:45
License: 暂无描述

arXiv2026-04-10 更新2026-04-11 收录

下载链接：

https://github.com/sleeepeer/PIArena

下载链接

链接失效反馈

官方服务：

资源简介：

PIArena Benchmark是由宾夕法尼亚州立大学团队构建的提示注入攻击评估基准数据集，集成于统一平台PIArena中。该数据集涵盖多样化目标任务（如问答、检索增强生成等）和四类现实攻击场景（钓鱼注入、内容推广、访问拒绝和基础设施故障），通过上下文感知的注入任务设计增强真实性。数据集的创建过程涉及利用LLM生成与目标指令和上下文相关联的恶意任务。其核心应用领域为大型语言模型安全研究，旨在系统评估防御措施在跨任务泛化性、对抗自适应攻击等方面的鲁棒性，推动提示注入防御技术的演进。

PIArena Benchmark is a prompt injection attack evaluation benchmark dataset constructed by the team from Pennsylvania State University, integrated into the unified platform PIArena. This dataset covers diverse target tasks (such as question answering, retrieval-augmented generation, etc.) and four types of real-world attack scenarios: phishing injection, content promotion, access denial, and infrastructure failure, enhancing authenticity through context-aware injection task design. The dataset creation process involves leveraging LLMs to generate malicious tasks associated with target instructions and contexts. Its core application field is large language model security research, aiming to systematically evaluate the robustness of defense measures against cross-task generalization and adaptive adversarial attacks, and promote the evolution of prompt injection defense technologies.

提供机构：

宾夕法尼亚州立大学

创建时间：

2026-04-10

原始信息汇总

PIArena 数据集概述

数据集基本信息

数据集名称：PIArena
核心定位：一个用于研究提示注入攻击与防御的易用工具箱和综合性基准测试平台。
主要功能：
1. 即插即用的攻击与防御：便于将先进的防御方案集成到工作流中，以保护LLM系统免受提示注入攻击。也可使用现有攻击策略进行研究。
2. 系统性评估基准：提供端到端的评估流程，便于在各种数据集上评估攻击/防御效果。
3. 自定义扩展：可轻松将自定义的攻击或防御方法集成到基准测试中，进行系统性性能评估。

数据集内容与组件

可用数据集

数据集列表位于：https://huggingface.co/datasets/sleeepeer/PIArena

支持的攻击方法

none：无攻击（基线）
direct：使用注入提示直接攻击（默认）
combined：基于论文《Formalizing and Benchmarking Prompt Injection Attacks and Defenses》
ignore：基于论文《Ignore Previous Prompt: Attack Techniques For Language Models》
completion：基于文章《Prompt injection attacks against GPT-3》
character：基于文章《Delimiters won’t save you from prompt injection》
nanogcg：基于论文《GCG》和项目《nanoGCG》
tap：基于论文《TAP: A Query-Efficient Method for Jailbreaking Black-Box LLMs》
pair：基于论文《PAIR: Jailbreaking black box large language models in twenty queries》
strategy_search：基于防御反馈的策略搜索攻击（在PIArena中引入）

支持的防御方法

none：无防御（基线，默认）
datasentinel：基于论文《DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks》
attentiontracker：基于论文《Attention Tracker: Detecting Prompt Injection Attacks in LLMs》
piguard：基于论文《PIGuard: Prompt Injection Guardrail via Mitigating Overdefense for Free》
promptguard：基于模型《Meta Prompt Guard》
secalign：基于论文《SecAlign: Defending Against Prompt Injection with Preference Optimization》（使用《Meta-SecAlign》模型）
promptlocate：基于论文《PromptLocate: Localizing Prompt Injection Attacks》
promptarmor：基于论文《PromptArmor: Simple yet Effective Prompt Injection Defenses》
pisanitizer：基于论文《PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization》
datafilter：基于论文《Defending Against Prompt Injection with DataFilter》

评估与基准测试

主要评估方式

使用 main.py 运行基准测试，支持命令行参数或YAML配置文件。
支持在多个GPU上并行运行实验。

基于搜索的攻击评估

支持迭代式优化注入提示的搜索型攻击（如PAIR, TAP, Strategy Search）。
使用 main_search.py 运行此类攻击。

智能体基准测试支持

支持以下智能体基准测试的集成与评估：
提供专门的评估脚本（main_injecagent.py, main_agentdojo.py）用于在智能体环境中测试防御措施。

扩展与贡献

支持用户添加自定义的攻击或防御方法。
扩展指南详见：https://piarena.vercel.app/#/docs/extending

引用信息

若使用本数据集或相关代码，请引用以下论文： bib @article{geng2026piarena, title={PIArena: A Platform for Prompt Injection Evaluation}, author={Geng, Runpeng and Yin, Chenlong and Wang, Yanting and Chen, Ying and Jia, Jinyuan}, journal={arXiv preprint arXiv:2604.08499}, year={2026} }

搜集汇总

数据集介绍

构建方式

PIArena Benchmark的构建过程体现了对现实世界攻击场景的深刻模拟。该平台通过整合多个公开可用的高质量数据集，如SQuAD v2、Dolly、Natural Questions等，覆盖了问答、信息抽取、摘要生成、检索增强生成及长上下文理解等多种核心任务类型。针对每种目标任务样本，研究团队利用大型语言模型，结合四种精心设计的攻击目标——钓鱼注入、内容推广、访问拒绝和基础设施故障，自动化生成了上下文感知的恶意注入任务。这种方法确保了注入指令不仅语义相关，而且模拟了攻击者为达成特定恶意目的而精心构造的上下文相关指令，从而构建了一个既多样又贴近实际的评估基准。

特点

PIArena Benchmark的显著特点在于其统一性、可扩展性以及对动态对抗场景的包容性。该平台提供了一个标准化的数据集结构和评估框架，使得最先进的攻击与防御方法能够以即插即用的方式进行集成与系统化比较。与以往使用静态、与上下文无关的注入任务的基准不同，PIArena引入了多样且真实的攻击目标类别，并设计了一种基于策略的自适应攻击。这种攻击能够根据防御反馈动态优化注入提示，有效模拟了攻击者为绕过防御而进行的迭代演化，从而对防御措施的泛化能力和鲁棒性提出了更为严峻的挑战。

使用方法

研究人员与实践者可通过PIArena提供的标准化接口，便捷地评估提示注入攻击与防御策略。使用流程始于导入或创建符合平台格式的基准数据集，其中每个样本均包含目标指令、上下文、注入任务及相应答案。随后，用户可从集成的攻击模块中选择静态启发式攻击、直接攻击或动态策略攻击，并将其应用于数据集以生成受污染的上下文。防御模块则集成了多种先进的检测式与预防式防御方法，用于处理受污染的输入并产生响应。最终，评估器模块通过计算任务效用和攻击成功率两项核心指标，量化防御措施在保护目标任务与抵抗恶意注入之间的权衡效果，支持跨任务、跨攻击的全面系统性评估。

背景与挑战

背景概述

随着大语言模型在现实世界应用中的广泛部署，提示注入攻击已成为其面临的首要安全威胁之一。宾夕法尼亚州立大学的研究团队于2026年提出了PIArena基准测试平台，旨在解决该领域长期缺乏统一、可扩展评估框架的核心问题。该数据集由Runpeng Geng、Chenlong Yin等学者主导构建，其核心研究聚焦于系统性地评估针对提示注入攻击的各种防御机制在多样化任务和攻击场景下的真实鲁棒性与泛化能力。PIArena通过整合前沿的攻击方法、防御策略以及涵盖问答、信息抽取、检索增强生成等多种应用的基准数据集，为学术界和工业界提供了一个标准化的评估生态系统，显著推动了提示注入安全研究的科学性与可复现性。

当前挑战

PIArena基准旨在解决的领域核心挑战在于系统评估提示注入防御措施的有效性。具体而言，现有防御方案常面临泛化能力不足的困境，即在特定任务或静态攻击上表现良好，却难以应对多样化的目标任务、复杂的上下文场景以及自适应的动态攻击策略。在数据集构建过程中，主要挑战体现在两个方面：一是如何设计并收集覆盖真实世界恶意目标（如钓鱼注入、内容推广、访问拒绝等）且与上下文语义相关的注入任务，以超越以往数据集中简单、上下文无关的注入模式；二是如何建立一个支持即插即用、可扩展的统一平台框架，以克服以往基准测试在攻击与防御集成、复杂代理环境配置以及跨数据集公平比较方面存在的技术壁垒与可复现性障碍。

常用场景

经典使用场景

在大型语言模型安全研究领域，PIArena Benchmark作为统一评估平台，其经典使用场景在于系统性地评测各类提示注入攻击与防御策略的对抗性能。该数据集通过整合多样化的目标任务与上下文感知的恶意注入任务，为研究人员提供了一个标准化的测试环境，用以衡量不同防御机制在多样化攻击向量下的鲁棒性。具体而言，研究者可借助该平台，在统一的框架下评估防御方法在问答、信息抽取、检索增强生成及长上下文理解等多种应用场景中的表现，从而揭示现有方案在泛化性与适应性方面的潜在局限。

衍生相关工作

PIArena Benchmark的推出，直接催生并衔接了一系列围绕提示注入攻防的经典研究工作。在攻击侧，其提出的基于策略的自适应攻击方法，为后续黑盒优化攻击提供了新的范式，启发了更多研究探索如何利用反馈引导的迭代优化来绕过复杂防御。在防御侧，基于该平台的系统性评估结果，促使研究者开发了如PISanitizer、SecAlign++、DataFilter等新一代预防与检测方案，这些工作均致力于解决平台所揭示的防御泛化性不足与对抗自适应攻击脆弱等问题。此外，该平台也推动了针对目标任务与注入任务对齐这一根本性挑战的深入研究，促使安全社区开始探索超越指令检测的内容级验证与系统级安全保障新路径。

数据集最近研究