SkillFortifyBench

github2026-04-24 更新2026-04-26 收录

下载链接：

https://github.com/qualixar/skillfortifybench

下载链接

链接失效反馈

官方服务：

资源简介：

SkillFortifyBench提供了一个包含540个技能的基准测试集，涵盖Claude（.md）、MCP（.json）和OpenClaw（.yaml）三种格式，其中270个为恶意技能（13种攻击类型，A1-A13），270个为良性技能（5个类别）。这些技能是通过确定性生成方法从种子值42生成的。该数据集旨在支持AI可靠性工程，构建默认可信的代理生态系统工具。

SkillFortifyBench provides a benchmark dataset consisting of 540 skills across three formats: Claude (.md), MCP (.json), and OpenClaw (.yaml). Of these, 270 are malicious skills covering 13 attack types labeled A1-A13, while the other 270 are benign skills belonging to 5 categories. All these skills were deterministically generated using the seed value 42. This dataset aims to support AI reliability engineering and facilitate the construction of default-trustworthy agent ecosystem tools.

创建时间：

2026-04-24

原始信息汇总

数据集概述

SkillFortifyBench 是一个用于评估 AI 智能体技能供应链安全扫描器性能的基准测试集，包含 540个技能，覆盖 3种格式。

核心信息

总技能数：540个
恶意技能：270个（涵盖13种攻击类型，A1-A13）
良性技能：270个（分为5个类别）
格式分布：
- Claude (.md)：180个（90恶意 + 90良性）
- MCP (.json)：180个（90恶意 + 90良性）
- OpenClaw (.yaml)：180个（90恶意 + 90良性）
生成方式：通过 seed=42 和 PYTHONHASHSEED=0 确定性生成，确保字节级可重现。

攻击类型分布（A1-A13）

攻击类型	描述	总数量
A1	HTTP 外泄	30
A2	DNS 外泄	18
A3	提示注入	30
A4	工具投毒	30
A5	凭证窃取	18
A6	权限提升	18
A7	任意代码执行	24
A8	间接提示注入	24
A9	影子工具注册	24
A10	依赖混淆	12
A11	技能仿冒	8
A12	打字错误仿冒	8
A13	多向量复合攻击	26

运行与评估

安装：pip install skillfortify
生成基准：PYTHONHASHSEED=0 python -m benchmarks.generator --output ./benchmark-output --seed 42
Docker 重现：提供容器化运行方式，确保字节级一致。
扫描评估：skillfortify scan benchmark-output/skills/ --format json --severity-threshold medium
预期指标（skillfortify 0.4.4, medium阈值）：
- 精确率：100%（270/270）
- 召回率：94.07%（254/270，含16个故意假阴性）
- 召回率Wilson 95%置信区间：[0.90592, 0.96320]

数据集内容

skills/claude/：180个Claude技能
skills/mcp/：180个MCP服务器配置
skills/openclaw/：180个OpenClaw技能
manifest.json：含SHA-256哈希的540条目清单
attack_taxonomy.json：A1-A13攻击类型分类

参考文献与相关基准

论文：Bhardwaj (2026), Formal Analysis and Supply Chain Security for Agentic AI Skills (arXiv:2603.00195)
论文DOI：https://doi.org/10.5281/zenodo.18787663
相关基准：Holzbauer et al. (2026), SkillClone (Zhu et al., ASE 2026), MalTool (Hu et al. 2026), InjecAgent (Zhan et al. 2024), MCPTox (Wang et al., AAAI 2026), HarmBench (Mazeika et al. 2024)

版本信息

当前版本：v1.0
已知局限：
1. 完全合成生成，无真实世界技能
2. 无难负例分层（良性技能未对抗性选择）
3. 无跨扫描器排行榜
4. 缺乏Gebru格式数据表或模型卡
5. 仅覆盖 skillfortify==0.4.4 版本
6. 仅英文技能
v1.1路线图（目标：2026 Q3）：
1. 真实世界技能分层
2. 难负例分层
3. 交互式排行榜
4. 数据集数据表（Gebru格式）
5. 生成器模型卡
6. 多版本分析器矩阵

许可证

benchmarks/ 子树：MIT许可证
其余代码：Elastic License 2.0

搜集汇总

数据集介绍

构建方式

SkillFortifyBench遵循附录B中详述的基准规范，通过确定性执行流程构建。所有540个技能均由`python -m benchmarks.generator --seed 42`命令生成，确保每次运行产生字节完全一致的文件。数据集涵盖Claude（.md）、MCP（.json）和OpenClaw（.yaml）三种技能格式，每种格式含180个技能，其中恶意与良性技能各半。恶意技能细分为13种攻击类型（A1至A13），包括HTTP外泄、DNS外泄、提示注入、工具投毒等，每种类型在不同格式中分布均匀。良性技能则分为5个类别。生成过程借助Docker容器化技术，固定Python哈希种子和依赖版本，实现工程层面的可复现性。最终产出包含技能文件、SHA-256哈希清单及攻击分类谱系，构成结构化评估基础。

特点

该数据集的核心特色在于其平衡性与系统性。540个技能中，恶意与良性样本严格对等，各占270个，便于评估检测工具的精确率与召回率。攻击类型覆盖13种真实威胁场景，从单一向量如凭证窃取、权限提升，到复合型多向量攻击，层次分明。每种攻击类型在三种格式中均有体现，数量经过精心分配，例如高频的HTTP外泄（30个）与低频的域名抢注（8个）形成梯度，反映实际威胁分布。良性技能具备多样性，但未引入对抗性筛选，保留自然分布特征。数据集附带详细清单与分类谱系，支持哈希验证，确保评测可追溯。整体设计强调可复现性与中立性，为AI智能体安全扫描器的对比分析提供标准化基准。

使用方法

使用SkillFortifyBench时，首先通过`pip install skillfortify`安装所需工具库。推荐采用Docker运行以确保字节完全复现，命令中包含安全策略限制与只读文件系统，生成结果输出至指定目录。用户可执行`skillfortify scan --format json --severity-threshold medium`对生成的技能文件进行扫描，获取包含精确率（100%）、召回率（94.07%）及Wilson置信区间的评估指标。数据集支持自定义阈值调整，并通过manifest.json中的SHA-256哈希验证文件完整性。对于进阶研究，可结合攻击分类谱系分析检测盲区，或独立生成种子参数拓展样本规模。所有操作均在命令行完成，接口清晰，适配持续集成与科研复现场景。

背景与挑战

背景概述

SkillFortifyBench是由Varun Pratap Bhardwaj于2025年提出的一项开创性基准测试，旨在评估面向AI智能体技能供应链安全扫描器的效能。该基准测试包含540个技能样本，横跨Claude、MCP和OpenClaw三种技能格式，其中270个为恶意技能（涵盖13种攻击类型，A1-A13），另外270个为良性技能。其核心研究问题聚焦于如何系统性地检测和分析AI智能体技能供应链中的安全威胁，填补了该领域缺乏标准化评估工具的空白。该基准测试通过确定性生成和字节一致性复制，确保了实验的可重复性，对推动AI可靠性工程的发展具有重要影响力。

当前挑战

SkillFortifyBench面临多方面的挑战。首先，在领域问题层面，AI智能体技能供应链的安全性评估缺乏统一标准，恶意技能的隐蔽性和多样性使得传统安全扫描方法难以全面覆盖。当前基准测试仅采用合成生成方式，未纳入自然分布的真实世界恶意技能样本，限制了其生态代表性。其次，在构建过程中，良性技能虽然多样化，但缺乏对抗性筛选的硬负样本，可能导致扫描器对复杂攻击的漏检。此外，缺乏跨扫描器的公开排行榜和版本矩阵覆盖，以及未提供Gebru风格的数据表或模型卡，影响了基准测试的透明度和可扩展性，后续版本需引入真实世界种子和硬负样本以增强现实相关性。

常用场景

经典使用场景

SkillFortifyBench作为一个精心设计的基准测试集，在智能体技能供应链安全领域扮演着核心评估工具的角色。该数据集涵盖了540个技能样本，横跨Claude、MCP和OpenClaw三种主流格式，包含270个恶意技能（涵盖13种攻击类型A1-A13）与270个良性技能。研究人员常将其用于系统性评估各类安全扫描工具对智能体技能供应链中已知威胁的检测能力，尤其是在计算精确率、召回率及Wilson置信区间等关键性能指标时，作为一个标准化的评估平台。

衍生相关工作

SkillFortifyBench的发布催生了一系列重要的衍生研究工作。Holzbauer等人借助该基准开展了跨扫描工具分歧测量研究，揭示了不同静态分析工具在检测同一组恶意技能时的结论差异。Zhu等人提出的SkillClone基准聚焦于智能体技能克隆检测，与SkillFortifyBench形成了互补的评估维度。此外，Hu等人的MalTool工作构建了工具滥用模式分类体系，Wang等人的MCPTox专门针对MCP协议构建攻击语料库，这些工作均受益于SkillFortifyBench所奠定的恶意技能生成方法论与评估框架，共同织就了智能体安全评估的完整网络。

数据集最近研究