ipi_arena_attacks
收藏Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/sureheremarv/ipi_arena_attacks
下载链接
链接失效反馈官方服务:
资源简介:
IPI Arena Attacks 数据集包含来自 [IPI Arena](https://github.com/grayswansecurity/ipi_arena_os) 基准测试的攻击字符串,用于评估模型对间接提示注入(IPI)的鲁棒性。该数据集源自 Qwen 模型(`qwen/qwen3-vl-235b-a22b-instruct`),包含 95 个攻击字符串,覆盖 28 种行为。这些攻击在开源模型上成功,但未在竞技场中的任何闭源模型上转移成功。每条数据包含两个字段:`behavior_id`(目标行为标识)和 `attack`(注入字符串)。数据集适用于研究模型安全性和鲁棒性,特别是针对间接提示注入攻击的防御能力。
创建时间:
2026-03-07



