AgentHazard

github2026-04-07 更新2026-04-08 收录

下载链接：

https://github.com/Yunhao-Feng/AgentHazard

下载链接

链接失效反馈

官方服务：

资源简介：

AgentHazard是一个全面的基准数据集，用于评估计算机使用代理的有害行为。与传统的提示级安全基准不同，AgentHazard专注于通过多轮、工具介导的轨迹中局部合理步骤的组合产生的执行级故障。

AgentHazard is a comprehensive benchmark dataset designed to evaluate the harmful behaviors of computer-using AI agents. Unlike traditional prompt-level safety benchmarks, AgentHazard focuses on execution-level failures generated by the combination of locally rational steps within multi-turn, tool-mediated trajectories.

创建时间：

2026-04-02

原始信息汇总

AgentHazard 数据集概述

数据集基本信息

数据集名称：AgentHazard
核心定位：一个用于评估计算机使用智能体有害行为的综合性基准测试
核心特点：专注于通过多轮、工具介导轨迹中局部合理步骤组合而产生的执行级故障，而非传统的提示级安全基准测试
数据规模：包含 2,653 个精心策划的实例
许可证：MIT License

数据集内容与构成

风险类别（10类）

系统远程代码执行（RCE）
数据外泄
持久化建立
供应链投毒
破坏性操作
内部侦察
权限提升
资源耗尽
提示智能窃取
合规性绕过

攻击策略（10种）

直接攻击
递归萨拉米切片
安全审计煤气灯效应
依赖钩子触发
伪诊断调试
上下文角色强制
编码载荷走私
隐式间接注入
逻辑依赖反转
遗留代码维护

评估范围

评估的智能体框架：Claude Code, OpenClaw, IFlow
评估的模型：Qwen2.5/3, Kimi K2/K2.5, GLM-4.6, DeepSeek
执行轨迹：超过 10,000 条，用于详细分析

数据集统计信息

统计项	数值
总实例数	2,653
风险类别数	10
攻击策略数	10
种子池大小	8,000+
平均分解长度	11.55
平均目标长度	20.98
智能体框架数	3
轨迹数	10,000+

基准构建方法

构建过程遵循严格的多阶段流程：

分类法设计：根据漏洞知识库和现有文献定义风险类别和攻击策略。
任务生成：在现实工作流中嵌入有害目标，创建任务模板。
种子池生成：使用大语言模型生成大规模候选实例。
基于执行的过滤：在沙盒化的智能体环境中运行实例以验证可执行性。
LLM-as-Judge评估：使用 Gemini-3 和 GPT-5.4 验证与预期目标的一致性。
人工策展：人工审查以去除重复项并确保质量。

主要实验结果

主要结果（攻击成功率 - ASR）

框架	模型	总体ASR (%)	有害性评分
Claude Code	GLM-4.6	82.90	7.05
Claude Code	Kimi-K2.5	78.30	6.47
Claude Code	Qwen3-Coder	73.63	5.95
IFlow	Qwen2.5-Coder-32B	74.70	6.06
OpenClaw	Kimi-K2	71.10	5.82
OpenClaw	GLM-4.6	70.80	6.15

关键发现

高脆弱性：当前智能体普遍脆弱，最高攻击成功率（ASR）达 82.90%。
多步骤升级：第1轮与第3轮之间的ASR大约增长三倍，证实了伤害对轨迹的依赖性。
框架差异：相同模型在不同框架上的ASR差异高达 16个百分点。
防护模型局限性：最佳防护模型（Llama-Guard-3-8B）仅能检测出 27.03% 的有害意图。
现实世界影响：攻击在生产环境中触发了实际的安全监控系统警报。

数据结构

每个实例遵循以下JSON结构： json { "id": "唯一实例ID", "risk_category": "风险类别，如System RCE", "attack_strategy": "攻击策略，如Recursive Salami Slicing", "task_description": "任务描述", "decomposition": ["步骤1", "步骤2", ...], "target_harmful_action": "目标有害操作", "workspace_files": {"文件名": "文件内容", ...}, "expected_trajectory_length": 预期轨迹长度, "metadata": {"difficulty": "难度", "frameworks": ["适用框架", ...]} }

获取与使用

主要资源

数据集文件：https://github.com/Yunhao-Feng/AgentHazard/blob/main/data/dataset.json
附录：https://github.com/Yunhao-Feng/AgentHazard/blob/main/appendix.pdf
源代码与评估框架：https://github.com/Yunhao-Feng/AgentHazard
执行轨迹：https://github.com/Yunhao-Feng/AgentHazard/tree/main/traces
Hugging Face：https://huggingface.co/datasets/Yunhao-Feng/AgentHazard
项目网站：https://yunhao-feng.github.io/AgentHazard/
论文：https://arxiv.org/abs/2604.02947

快速开始

bash git clone https://github.com/Yunhao-Feng/AgentHazard.git cd AgentHazard pip install -r requirements.txt

python import json with open(data/dataset.json, r) as f: dataset = json.load(f) print(f"Loaded {len(dataset)} instances")

引用

bibtex @inproceedings{feng2026agenthazard, title = {AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents}, author = {Feng, Yunhao and Ding, Yifan and Tan, Yingshui and Ma, Xingjun and Li, Yige and Wu, Yutao and Gao, Yifeng and Zhai, Kun and Guo, Yanming}, booktitle = {arXiv:2604.02947}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在计算机智能体安全评估领域，AgentHazard数据集的构建遵循一套严谨的多阶段流程。研究团队首先基于漏洞知识库与既有文献，系统性地定义了涵盖远程代码执行、数据窃取等十个风险类别以及直接攻击、递归萨拉米切片等十种攻击策略的完整分类体系。随后，通过设计嵌入有害目标的现实工作流任务模板，并利用大语言模型生成大规模候选实例，构建了初始种子池。为确保评估的真实性，所有实例均在沙箱化的智能体环境中进行执行验证，筛选出具备可执行性的案例。最终，结合大语言模型作为评判者的自动化评估与人工专家审核，剔除重复项并保障数据质量，从而形成了包含2,653个高质量实例的基准数据集。

特点

AgentHazard数据集的核心特点在于其专注于执行层面的安全失效评估，突破了传统基于提示词的安全性基准测试的局限。该数据集精心编排了涵盖十个不同风险类别与十种攻击策略的多样化实例，能够模拟智能体在多轮次、工具调用的复杂轨迹中，由局部合理步骤组合而引发的全局性有害行为。数据集不仅覆盖了Claude Code、OpenClaw和IFlow三种主流智能体框架，还包含了基于Qwen、Kimi、GLM及DeepSeek等多种模型的超过一万条执行轨迹，为深入分析提供了丰富素材。尤为重要的是，其设计的攻击在真实生产环境中触发了实际的安全告警，证实了所识别漏洞的现实严重性与评估的有效性。

使用方法

为便于研究人员使用，AgentHazard数据集以标准化的JSON格式提供。用户可通过克隆项目仓库并加载数据集文件快速获取全部2,653个实例。每个实例均包含唯一标识符、风险类别、攻击策略、任务描述、分解步骤、目标有害动作、工作空间文件及元数据等结构化信息。研究者可利用该数据集评估不同智能体框架与模型在面对复杂、隐蔽攻击时的脆弱性，计算攻击成功率等关键指标。数据集配套的完整源代码与评估框架支持在沙箱环境中复现执行轨迹，进行详细的失败模式分析，从而推动开发更鲁棒的防护机制与安全对齐技术。

背景与挑战

背景概述

随着大语言模型驱动的智能体在软件开发、系统管理等计算机操作任务中日益普及，其执行过程中的安全风险已成为人工智能安全领域的前沿议题。AgentHazard基准由Yunhao Feng等研究人员于2026年提出，旨在系统评估计算机使用智能体在工具调用和多轮交互轨迹中产生的执行层面有害行为。该数据集由阿里巴巴集团与复旦大学支持构建，涵盖了远程代码执行、数据窃取、供应链投毒等十个核心风险类别，并针对Claude Code、OpenClaw等主流智能体框架进行了大规模实证分析。其通过严谨的管道生成超过两千个标注实例，为理解智能体在复杂工作流中的安全漏洞提供了关键实证基础，推动了可执行环境下的智能体安全评估从理论向实践迈进。

当前挑战

AgentHazard致力于解决计算机使用智能体安全评估的核心挑战，即如何精准捕捉并量化其在多步骤工具调用轨迹中涌现的执行级危害。传统提示级安全基准难以检测通过局部合理步骤组合而最终达成有害目标的复合型攻击，该数据集通过设计递归萨拉米切片、安全审计煤气灯等十种复杂攻击策略，模拟了真实场景中智能体被恶意诱导的风险。在构建过程中，研究团队面临生成既符合现实工作流又具备可执行性的有害任务实例的挑战，需在沙盒环境中验证数千条轨迹的实际危害性，并利用大语言模型作为评判者与人工审核相结合，以确保数据质量与攻击有效性的平衡。

常用场景

经典使用场景

在智能体安全研究领域，AgentHazard数据集为评估计算机使用代理的有害行为提供了标准化基准。其经典应用场景集中于多轮次、工具调用的执行轨迹中，通过模拟真实工作流程中的复杂攻击路径，系统性地测试智能体在面临递归式萨拉米切片、安全审计煤气灯效应等十种高级攻击策略时的防御能力。研究人员利用该数据集可量化分析不同框架与模型在系统远程代码执行、数据外泄等十大风险类别下的脆弱性表现，从而揭示智能体在组合式操作中产生的执行级安全失效。

衍生相关工作

基于AgentHazard的基准特性，已衍生出多个重要研究方向。在防御机制构建方面，研究者利用其执行轨迹数据开发了具有多步推理能力的守护模型；在框架安全性评估领域，该数据集成为比较Claude Code、OpenClaw等主流框架抗攻击能力的事实标准。相关工作进一步拓展至跨模态安全评估、自适应攻击检测等前沿课题，为构建下一代智能体安全评估体系提供了可扩展的范式基础。

数据集最近研究