Agent-IPI-Structured-Interaction-Datasets-v2

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/Z-Edgar/Agent-IPI-Structured-Interaction-Datasets-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Agent-IPI结构化交互数据集v2是一个用于评估和训练防御大型语言模型（LLM）在工具调用场景中提示注入和指令劫持攻击的数据集。数据集包含JSON和XML格式的输入，分为三个难度级别：无攻击（no_attack）、简单攻击（easy）和困难攻击（hard）。简单攻击涉及在现有值末尾附加恶意内容或添加新的键值对而不破坏整体结构；困难攻击则包括破坏结构的语法注入或结合多种攻击类型。数据集涵盖了七种攻击类型和32种恶意目标，包括凭证泄露、未经授权的访问、数据删除等。数据集统计显示，训练集包含246,648个样本，测试集包含3,000个样本，总计249,648个样本。每个样本包含原始干净提示和对抗攻击版本（无攻击样本中两者相同）。数据集来源包括现有工具调用数据集的去重数据和合成示例，以及从其他数据集转换的XML数据。

创建时间：

2026-02-01

搜集汇总

数据集介绍

构建方式

在大型语言模型工具调用安全研究领域，构建对抗性数据集是评估和提升模型鲁棒性的关键。Agent-IPI-Structured-Interaction-Datasets-v2的构建过程始于对现有工具调用数据集的去重与整合，并辅以合成生成，形成了结构化的干净数据基础。随后，依据精心设计的攻击框架，通过自动化脚本在干净数据上注入恶意内容，生成了攻击变体。该框架系统性地定义了攻击位置、类型与目标，攻击位置涵盖值级、结构级与结构破坏性注入，攻击类型则包括忽略攻击、角色扮演攻击、嵌套攻击等七种策略，攻击目标则扩展自相关学术论文，覆盖了凭证泄露、数据篡改等32种恶意意图。最终，数据被划分为无攻击、简单攻击与困难攻击三个难度等级，并分别以JSON和XML格式组织，确保了数据生成的系统性与可复现性。

特点

该数据集的核心特征在于其面向对抗性安全评估的深度结构化设计。其数据样本严格遵循“干净-受攻击”的配对格式，为模型防御性能的对比分析提供了清晰基准。数据集依据攻击的复杂性与隐蔽性，构建了无攻击、简单攻击与困难攻击三个渐进式难度层级，其中困难样本至少包含两个原始键值对，并涉及结构破坏或复合攻击，极大提升了评估的挑战性。在格式上，同时提供了JSON与XML两种广泛使用的结构化数据表示，模拟了真实世界工具调用场景的多样性。数据规模庞大，总计近25万条训练样本与3000条测试样本，为训练稳健的防御模型提供了充足的资源。这种多层次、多格式、大规模的特点，使其成为系统研究提示注入与指令劫持防御机制的宝贵资产。

使用方法

该数据集主要用于训练和评估大型语言模型在工具调用场景下抵御提示注入攻击的能力。研究人员或开发者可通过Hugging Face CLI工具下载完整数据集，其目录结构已清晰划分为训练集与测试集，并进一步按数据格式（JSON/XML）和攻击难度（无攻击/简单/困难）组织为独立文件，便于按需加载。在实际应用中，用户可将“clean”字段作为模型的标准输入，将“attacked”字段作为包含对抗性扰动的输入，通过对比模型在两组输入上的行为差异来量化其脆弱性。该数据集特别适用于监督学习，即训练模型识别并拒绝恶意指令，或用于构建更强大的检测器与过滤机制。其提供的难度分级允许进行渐进式测试，从基础攻击防御逐步过渡到应对复杂的组合与结构破坏性攻击，全面评估防御方案的鲁棒性边界。

背景与挑战

背景概述

随着大型语言模型在工具调用场景中的广泛应用，指令劫持与提示注入攻击已成为人工智能安全领域的核心威胁。Agent-IPI-Structured-Interaction-Datasets-v2由研究人员Z-Edgar于近期构建，旨在系统性地评估和训练针对结构化交互场景中对抗性攻击的防御机制。该数据集聚焦于JSON与XML格式的指令流，通过模拟多种攻击位置与类型，深入探究模型在复杂交互环境下的安全边界。其设计灵感源自相关学术文献，覆盖凭证泄露、未授权访问、数据篡改等32类恶意目标，为提升智能体在真实世界中的鲁棒性提供了关键基准。

当前挑战

该数据集致力于解决工具调用场景下指令劫持攻击的检测与防御难题，其核心挑战在于攻击形式的多样性与隐蔽性。攻击者可能通过值级注入、结构级篡改或语法破坏等策略，巧妙绕过模型的安全机制，引发未经授权的敏感操作。在构建过程中，挑战体现在如何平衡攻击样本的真实性与复杂性，确保数据覆盖从简单单点攻击到复合结构破坏的多层次威胁。同时，生成大规模、高质量的结构化对抗样本需克服语义保持与语法合规的双重约束，避免因数据偏差导致防御模型过拟合或泛化能力不足。

常用场景

经典使用场景

在大型语言模型工具调用安全研究领域，Agent-IPI-Structured-Interaction-Datasets-v2 数据集为评估和训练针对提示注入攻击的防御机制提供了标准化的基准。该数据集通过模拟真实场景中恶意指令劫持行为，涵盖了从简单值级攻击到复杂结构破坏性攻击的多层次对抗样本，使研究人员能够系统性地测试模型在结构化交互环境下的鲁棒性。其精心设计的难度分级与攻击类型组合，为构建可靠的检测与缓解策略奠定了实证基础。

实际应用

在实际应用层面，该数据集直接服务于增强AI助手、自动化工作流及API集成系统的安全性。开发者可利用其对抗样本对部署前的模型进行压力测试，识别并修补可能被恶意指令利用的漏洞。安全团队能够基于该数据集训练专用的监控与过滤系统，以防范凭证泄露、未授权访问或数据篡改等现实威胁，从而提升基于大语言模型的应用程序在生产环境中的整体安全水位。

衍生相关工作

围绕该数据集，已衍生出一系列专注于大语言模型安全的前沿研究。相关工作包括开发新型的对抗性训练框架以提升模型韧性，设计基于语法分析与语义理解的混合检测器，以及探索在工具调用链中实现动态权限控制的安全代理架构。这些工作不仅深化了对提示注入攻击机理的认识，也推动了如红队测试、形式化验证等安全评估方法在AI系统中的应用与演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集