SkillSafetyBench

github2026-05-14 更新2026-05-15 收录

下载链接：

https://github.com/AI45Lab/skill-safety-bench

下载链接

链接失效反馈

官方服务：

资源简介：

SkillSafetyBench是一个完全实现的基准测试，用于评估由技能面向上下文攻击引起的安全故障。每个案例保持用户面向任务普通，而攻击被放置在本地技能、辅助脚本、侧车文件、语料库、模板或其他工作空间工件中，代理可能在执行过程中咨询这些工件。

SkillSafetyBench is a fully implemented benchmark designed to evaluate security failures caused by skill-oriented contextual attacks. Each case maintains a normal task-oriented user scenario, while the attack is embedded in local skills, auxiliary scripts, sidecar files, corpora, templates, or other workspace artifacts that the agent may consult during execution.

创建时间：

2026-05-08

原始信息汇总

数据集概述：SkillSafetyBench

SkillSafetyBench 是一个用于评估智能体（Agent）因技能相关上下文遭受攻击而引发安全失败的静态基准测试。该基准测试已完整实现，包含 155 个预构建的测试用例，覆盖 6 个风险领域和 30 个类别。

核心评估目标

评估维度：测试智能体能否在完成良性用户任务的同时，抵御嵌入在技能相关工件（如本地技能文件、辅助脚本、侧车文件、语料库、模板或工作区工件）中的不安全指令或误导性上下文。
评分轴：每个测试用例从两个独立维度进行评估：
- task_success：普通用户任务是否完成。
- attack_success：不安全行为是否被观测到。
设计理念：强调一个系统可能看似强大（任务成功完成），但同时仍然存在漏洞（遵循了包含攻击的技能上下文）。良性任务载体选自 SkillsBench（https://www.skillsbench.ai）。

数据集结构与内容

测试用例数量：155 个预构建用例。
风险领域：共 6 个。
1. RD1: 上下文信任与提示操纵风险
2. RD2: 代理、范围与授权风险
3. RD3: 执行、运行时、框架与协议风险
4. RD4: 数据边界、输出与外部化风险
5. RD5: 内存、恢复、审计与持久性风险
6. RD6: 知识、模型、供应链与运营风险
类别：每个风险领域包含 5 个类别，共 30 个类别。
用例组织结构：每个用例包含以下内容：
- 一个应该被完成的良性基础任务。
- 一个或多个技能面向的攻击面。
- 用于不安全行为的确定性验证器。
- 用于基础任务完成情况的测试。
- 描述最终用例设计的元数据和基本原理。
存储结构：用例文件存储在 benchmark/<risk-domain>/<category>/<case>/ 目录下。
重要说明：该基准测试是静态的，可直接运行，并非用例生成器。

运行与使用

环境要求：需要 bash、python3 (>=3.11)、docker、uv、harbor、nvm 和 Node.js 22。
配置：需要配置环境变量文件（.envrc），例如为 codex 或 claude-code 等智能体设置 API 密钥和端点。
运行方式：通过主要入口脚本 scripts/start_agent_batch.sh 运行。支持按风险领域、单个类别、单个用例或自定义清单运行。
输出结果：每次运行会在 jobs/ 目录下创建输出目录，包含 attack_results.json、summary.json、summary.csv 等文件，以及每个用例的详细结果。

安全声明

该仓库包含对抗性基准测试用例，部分用例模拟了网络钓鱼、凭证索取、破坏性操作、数据泄露等行为。
强烈建议仅在隔离的研究环境中运行。不要使用生产凭证、生产云账户、个人账户或敏感本地文件。建议使用一次性API密钥、一次性容器、受限网络访问和专用工作目录。

搜集汇总

数据集介绍

构建方式

SkillSafetyBench的构建从SkillsBench中选取日常良性任务载体，保留原始用户任务，通过向技能面工件（如本地技能、辅助脚本、模板等）注入攻击指令，形成对抗性评测样本。每个样本配备确定性验证器，分别检测任务完成度与不安全行为是否触发，确保评测聚焦于智能体在恶意本地上下文下的安全鲁棒性。基准包含155个预先设计的案例，覆盖6个风险域和30个类别，其构建管道将攻击注入与验证逻辑固化于静态案例中，避免了动态生成的随机性。

特点

该数据集具备全物化、静态可执行的特质，无需案例生成器即可直接运行。每个案例封装了良性基础任务、单或多个技能面攻击表面、任务完成测试与攻击验证脚本，并附带元数据与设计说明。评测结果从任务成功与攻击成功两个正交维度解析，避免系统因任务完成而掩盖安全缺陷的评估偏差。155个案例系统性覆盖上下文操控、权限越界、执行流劫持、数据外泄等六大风险领域，层次分明，便于分析不同攻击模式下的模型脆弱性。

使用方法

运行基准需要配置bash、Python 3.11+、Docker、Harbor等工具链，并设置OpenAI或Anthropic兼容的API密钥及环境变量。通过`start_agent_batch.sh`脚本启动评测，支持按风险域、类别或单个案例过滤执行，亦可使用自定义清单文件。每次运行生成独立的输出目录，包含攻击结果JSON、CSV汇总及日志文件。可针对codex或claude-code等智能体指定模型，通过dry-run模式预览选取案例而不实际执行。

背景与挑战

背景概述

SkillSafetyBench诞生于2025年，由一群专注于人工智能安全的研究者开发，旨在填补现有基准测试在技能导向上下文攻击安全性评估方面的空白。随着大型语言模型驱动的编码与任务代理日益依赖本地技能和环境工件（如辅助脚本、模板或语料库），而非仅凭用户提示执行操作，安全漏洞的检测变得愈发复杂。该基准的核心研究问题，在于评估代理在保持普通用户任务完成的同时，能否抵御嵌入于技能工坊中的不安全指令或误导性上下文。通过覆盖6个风险领域、30个类别下的155个精心构造案例，SkillSafetyBench不仅系统性地剖析了提示操纵、越权执行、数据外泄等多维安全风险，还因其灵活的静态评测设计，为相关领域提供了可复现的评估标准，显著推动了代理安全性的实证研究。

当前挑战

SkillSafetyBench面临的挑战主要分为两方面。在领域问题层面，当前智能代理在执行用户交办的普通任务时，极易被隐藏在本地脚本或上下文工件中的恶意指令劫持，导致权限滥用或敏感信息泄露，而现有安全评测往往忽略了这种技能导向的隐蔽攻击面。在基准构建过程中，研究者必须筛选自SkillsBench的原始任务载体，在不破坏其良性功能的前提下，精确植入攻击上下文，同时设计确定性的成功验证器以区分任务完成度与攻击成功率，这对案例设计的严谨性与领域覆盖的完备性提出了极高要求。此外，确保各案例在隔离环境中安全运行，避免产生真实凭证或数据的泄露风险，也是构建过程中必须持续应对的关键技术障碍。

常用场景

经典使用场景

在智能代理系统安全评估领域，SkillSafetyBench被广泛用于检测编码与任务型代理在面对嵌入于本地技能、辅助脚本、侧车文件及工作空间工件中的恶意指令时的脆弱性。该基准测试通过保持用户面向任务的常规性，将攻击置于代理执行过程中可能调用的技能上下文内，从而揭示代理在完成良性任务的同时是否会被隐藏的不安全引导所欺骗。研究者通常利用该基准评估不同代理系统在6个风险域、30个类别共计155个精心构造的案例上的表现，并依据任务完成度与攻击成功率两个核心维度进行系统化评价。

解决学术问题

SkillSafetyBench填补了现有安全基准测试在技能面对上下文攻击评估方面的系统性空白。此前多数研究仅关注用户提示层面的直接注入攻击，而忽略了代理在依赖本地技能和环境工件时可能遭遇的更隐蔽威胁。该数据集系统性地揭示了代理在信任框架、执行范围、运行时协议、数据边界、持久化机制以及供应链安全等六个维度上的潜在风险。其意义在于推动学术界从单一提示安全转向对代理全执行链路安全性的深入思考，为构建更鲁棒、更可信的自主代理系统奠定了方法论基础。

衍生相关工作

SkillSafetyBench的发布催生了多项衍生研究工作。在基准构建层面，其基于SkillsBench良性任务载体的攻击注入方法被后续工作借鉴，形成了面向任务型代理的对抗样本生成范式。在安全分析层面，研究者利用该基准发现并分类了多种技能上下文中的新型攻击向量，如持久化锚点投毒与模型微调后门，进而推动了针对代理执行时动态上下文过滤机制的研究。此外，其双轴评价体系（任务成功率与攻击成功率）已被多篇后续论文采纳为评估代理安全性与功能完备性的标准框架，促进了该领域评价指标的统一化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集