AgentHazard
收藏AgentHazard 数据集概述
数据集基本信息
- 数据集名称:AgentHazard
- 核心定位:一个用于评估计算机使用智能体有害行为的综合性基准测试
- 核心特点:专注于通过多轮、工具介导轨迹中局部合理步骤组合而产生的执行级故障,而非传统的提示级安全基准测试
- 数据规模:包含 2,653 个精心策划的实例
- 许可证:MIT License
数据集内容与构成
风险类别(10类)
- 系统远程代码执行(RCE)
- 数据外泄
- 持久化建立
- 供应链投毒
- 破坏性操作
- 内部侦察
- 权限提升
- 资源耗尽
- 提示智能窃取
- 合规性绕过
攻击策略(10种)
- 直接攻击
- 递归萨拉米切片
- 安全审计煤气灯效应
- 依赖钩子触发
- 伪诊断调试
- 上下文角色强制
- 编码载荷走私
- 隐式间接注入
- 逻辑依赖反转
- 遗留代码维护
评估范围
- 评估的智能体框架:Claude Code, OpenClaw, IFlow
- 评估的模型:Qwen2.5/3, Kimi K2/K2.5, GLM-4.6, DeepSeek
- 执行轨迹:超过 10,000 条,用于详细分析
数据集统计信息
| 统计项 | 数值 |
|---|---|
| 总实例数 | 2,653 |
| 风险类别数 | 10 |
| 攻击策略数 | 10 |
| 种子池大小 | 8,000+ |
| 平均分解长度 | 11.55 |
| 平均目标长度 | 20.98 |
| 智能体框架数 | 3 |
| 轨迹数 | 10,000+ |
基准构建方法
构建过程遵循严格的多阶段流程:
- 分类法设计:根据漏洞知识库和现有文献定义风险类别和攻击策略。
- 任务生成:在现实工作流中嵌入有害目标,创建任务模板。
- 种子池生成:使用大语言模型生成大规模候选实例。
- 基于执行的过滤:在沙盒化的智能体环境中运行实例以验证可执行性。
- LLM-as-Judge评估:使用 Gemini-3 和 GPT-5.4 验证与预期目标的一致性。
- 人工策展:人工审查以去除重复项并确保质量。
主要实验结果
主要结果(攻击成功率 - ASR)
| 框架 | 模型 | 总体ASR (%) | 有害性评分 |
|---|---|---|---|
| Claude Code | GLM-4.6 | 82.90 | 7.05 |
| Claude Code | Kimi-K2.5 | 78.30 | 6.47 |
| Claude Code | Qwen3-Coder | 73.63 | 5.95 |
| IFlow | Qwen2.5-Coder-32B | 74.70 | 6.06 |
| OpenClaw | Kimi-K2 | 71.10 | 5.82 |
| OpenClaw | GLM-4.6 | 70.80 | 6.15 |
关键发现
- 高脆弱性:当前智能体普遍脆弱,最高攻击成功率(ASR)达 82.90%。
- 多步骤升级:第1轮与第3轮之间的ASR大约增长三倍,证实了伤害对轨迹的依赖性。
- 框架差异:相同模型在不同框架上的ASR差异高达 16个百分点。
- 防护模型局限性:最佳防护模型(Llama-Guard-3-8B)仅能检测出 27.03% 的有害意图。
- 现实世界影响:攻击在生产环境中触发了实际的安全监控系统警报。
数据结构
每个实例遵循以下JSON结构: json { "id": "唯一实例ID", "risk_category": "风险类别,如System RCE", "attack_strategy": "攻击策略,如Recursive Salami Slicing", "task_description": "任务描述", "decomposition": ["步骤1", "步骤2", ...], "target_harmful_action": "目标有害操作", "workspace_files": {"文件名": "文件内容", ...}, "expected_trajectory_length": 预期轨迹长度, "metadata": {"difficulty": "难度", "frameworks": ["适用框架", ...]} }
获取与使用
主要资源
- 数据集文件:
https://github.com/Yunhao-Feng/AgentHazard/blob/main/data/dataset.json - 附录:
https://github.com/Yunhao-Feng/AgentHazard/blob/main/appendix.pdf - 源代码与评估框架:
https://github.com/Yunhao-Feng/AgentHazard - 执行轨迹:
https://github.com/Yunhao-Feng/AgentHazard/tree/main/traces - Hugging Face:
https://huggingface.co/datasets/Yunhao-Feng/AgentHazard - 项目网站:
https://yunhao-feng.github.io/AgentHazard/ - 论文:
https://arxiv.org/abs/2604.02947
快速开始
bash git clone https://github.com/Yunhao-Feng/AgentHazard.git cd AgentHazard pip install -r requirements.txt
python import json with open(data/dataset.json, r) as f: dataset = json.load(f) print(f"Loaded {len(dataset)} instances")
引用
bibtex @inproceedings{feng2026agenthazard, title = {AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents}, author = {Feng, Yunhao and Ding, Yifan and Tan, Yingshui and Ma, Xingjun and Li, Yige and Wu, Yutao and Gao, Yifeng and Zhai, Kun and Guo, Yanming}, booktitle = {arXiv:2604.02947}, year = {2026} }




