kavyanshshakya/strathos-asi-scenarios
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/kavyanshshakya/strathos-asi-scenarios
下载链接
链接失效反馈官方服务:
资源简介:
Strathos: OWASP ASI 2026对抗性场景数据集包含30个手工制作的对抗性场景,用于测试LLM代理在系统性对抗压力下的鲁棒性。这些场景按照OWASP Agentic Security Initiative (ASI) 2026攻击类别进行组织,包括目标劫持(ASI01)、工具滥用(ASI02)、权限滥用(ASI03)、内存污染(ASI06)和代理间通信(ASI07)五个类别,每个类别包含6个场景。该数据集用于Strathos OpenEnv环境。
Strathos: OWASP ASI 2026 Adversarial Scenarios contains 30 hand-authored adversarial scenarios for testing LLM agent robustness against systematic adversarial pressure, organized by OWASP Agentic Security Initiative (ASI) 2026 attack class. The scenarios cover five ASI classes: Goal Hijacking (ASI01), Tool Misuse (ASI02), Privilege Abuse (ASI03), Memory Poisoning (ASI06), and Inter-Agent Communication (ASI07), with 6 scenarios per class. Used by the Strathos OpenEnv environment.
提供机构:
kavyanshshakya
搜集汇总
数据集介绍

构建方式
该数据集由30个经过人工精心设计的对抗性场景构成,旨在系统性地评估大型语言模型(LLM)智能体在面对对抗性压力时的鲁棒性。场景组织依据OWASP代理安全倡议(ASI)2026所定义的攻击类别,具体覆盖了五大核心攻击类别:ASI01目标劫持、ASI02工具滥用、ASI03权限滥用、ASI06内存投毒以及ASI07智能体间通信,每类均包含6个场景,从而形成结构均匀且具有代表性的测试集合。
特点
数据集的核心特征在于其高度聚焦于LLM智能体安全这一前沿领域,场景设计紧密贴合OWASP ASI 2026框架,确保了对抗性测试的系统性与专业性。30个场景均为手工编写,能够精准模拟真实世界中可能出现的复杂攻击模式。此外,数据集规模精巧(n<1K),便于研究者快速进行实验验证与模型迭代,且采用MIT开源许可,促进了学术交流与工业应用。
使用方法
该数据集主要作为Strathos OpenEnv环境的一部分而使用,用户可通过Hugging Face Spaces直接调用该环境进行测试。在具体使用中,研究者可将这些对抗性场景作为评估基准,对LLM智能体进行系统性的安全压力测试。数据集支持强化学习与文本分类任务,适用于对抗性鲁棒性、LLM安全及代理安全等研究方向,用户亦可依据自身需求,对场景进行扩展或修改以适配不同的安全评估框架。
背景与挑战
背景概述
随着大型语言模型(LLM)被广泛部署于自主代理系统中,其面临的安全性挑战愈发严峻。在此背景下,由Kavyansh Shakya于2026年创建的Strathos OWASP ASI 2026对抗场景数据集应运而生。该数据集紧密围绕开放Web应用安全项目(OWASP)发布的代理安全倡议(ASI)2026攻击分类体系,聚焦于目标劫持、工具误用、权限滥用、记忆投毒及代理间通信五大核心威胁类别。通过手工构建30个精炼的对抗场景,该数据集为研究LLM代理在系统性对抗压力下的鲁棒性提供了标准化的测试基准。其发布不仅填补了代理安全评估领域的空白,更推动了LLM安全防御技术的实证发展,对人工智能安全社区产生了深远影响。
当前挑战
当前,LLM代理系统面临的核心挑战在于如何抵御结构化、多向度的对抗攻击。该数据集针对的领域问题涵盖:1)目标劫持:攻击者通过注入恶意指令迫使代理偏离原始任务目标;2)工具误用:利用代理对工具的调用权限执行非授权操作;3)权限滥用:通过越权访问敏感资源或功能。在构建过程中,研究者面临的关键挑战包括:4)场景真实性:需手工设计覆盖ASI六大攻击类别的对抗情景,确保其既符合安全研究前沿又具备实际攻击潜力;5)数量与多样性平衡:在有限样本(30个)中最大化攻击变体的覆盖面,以支撑鲁棒的鲁棒性评估。这些挑战共同定义了该数据集在代理安全研究中的独特价值与局限。
常用场景
经典使用场景
在大型语言模型(LLM)代理安全性与鲁棒性评估的学术前沿,Strathos OWASP ASI 2026对抗场景数据集提供了一个系统化且精密的测试基准。该数据集精心设计了30个手工制作的对抗性场景,全面覆盖OWASP代理安全倡议(ASI)2026定义的五大攻击类别,包括目标劫持、工具滥用、权限滥用、内存投毒与代理间通信。研究者可借助这些场景对LLM代理实施多层次、渐进的对抗压力测试,从而深入剖析模型在面对恶意诱导与操纵时的薄弱环节。该数据集尤为适用于强化学习与文本分类任务中的安全评测,成为评估LLM防御机制有效性的关键工具。
解决学术问题
该数据集的诞生有效回应了LLM代理安全领域长期存在的标准化评估缺失问题。它针对代理系统在现实部署中极易遭遇的对抗性攻击,如攻击者通过劫持目标导向行为、诱导工具误用或扰乱代理间信任通道,提供了可复现且结构化的测试集合。这使研究人员能够系统地量化模型在各类攻击维度上的脆弱性,揭示不同防御策略的局限性。数据集的使用推动了对对抗鲁棒性理论的深化理解,特别是关于代理系统在分布式环境中如何维持语义一致性并抵御操纵攻击的认知。其引入的OWASP分类框架也为该领域奠定了安全研究的统一术语与基准。
衍生相关工作
基于Strathos OWASP ASI 2026对抗场景数据集的涌现,研究者已展开一系列衍生性工作的探索。首先,该数据集被整合至Strathos OpenEnv环境,形成一套完整的对抗性测试框架,使研究者能够动态生成攻击变体并观测模型响应变化。其次,受其启发,若干工作聚焦于开发针对特定ASI类别的专用防御机制,如基于规则约束的目标劫持检测器与基于知识图谱的权限滥用预警系统。此外,该数据集的分类体系已被应用于对最新LLM代理(如GPT-4、Claude系列)的安全性对比研究,分析不同模型在对抗性条件下的性能差异及其根本动因,进而促进了对代理架构本身鲁棒性设计的迭代优化。
以上内容由遇见数据集搜集并总结生成



