CUAHarm

Hugging Face2025-05-31 更新2025-06-01 收录

下载链接：

https://huggingface.co/datasets/CUAHarm/CUAHarm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个部分：'计算机使用任务'和'常见恶意提示'。'计算机使用任务'部分的数据文件为computer_use_tasks.csv，用于测试。'常见恶意提示'部分的数据文件为common_malicious_prompts.csv，也用于测试。具体内容未详细描述。

创建时间：

2025-05-31

搜集汇总

数据集介绍

构建方式

在计算机安全领域，评估自主控制系统的风险性至关重要。CUAHarm数据集的构建基于专家撰写的104个现实滥用场景，涵盖凭证窃取、权限提升、网络攻击等七类恶意目标。这些场景通过模拟真实计算机操作环境，设计了可验证的任务完成度评估机制，确保每个风险场景具备明确的执行标准和检测逻辑。数据集采用结构化分类方式，将计算机使用任务与常见恶意提示分别整理为独立配置文件，为系统性评估提供坚实基础。

特点

该数据集的核心特征在于其针对计算机使用代理（CUAs）的多维度风险测评能力。数据集包含52项需直接系统交互的计算机任务，覆盖从防火墙关闭到后门安装等复杂操作，并配备沙箱环境与基于规则的奖励验证系统。通过终端直接访问机制，可精确追踪代理行为的执行成功率与资源消耗，其内置的令牌成本计算功能进一步强化了实验的可重复性与量化分析潜力。

使用方法

研究人员可通过Hugging Face数据集库直接加载CUAHarm的两个配置模块：计算机使用任务模块提供具体系统交互指令，常见恶意提示模块则聚焦通用性安全威胁评估。加载后需结合官方GitHub仓库的虚拟机设置指南，在沙箱环境中运行代理并观察其行为轨迹。数据集支持对代理执行效果进行规则化验证，同时输出令牌使用量等关键指标，为安全性能基准测试提供标准化流程。

背景与挑战

背景概述

随着人工智能技术的飞速发展，计算机使用代理（CUAs）作为能够自主控制计算机执行多步操作的智能体，其潜在安全风险日益引发学术界与工业界的关注。2025年，由Aaron Xuxiang Tian等研究人员提出的CUAHarm数据集应运而生，旨在系统评估CUAs在获得完整计算机访问权限时可能引发的恶意行为。该数据集聚焦于网络安全与代理安全交叉领域，通过构建104个专家编写的现实滥用场景，填补了现有基准在复杂系统交互安全评估方面的空白，为推进可控人工智能研究提供了关键数据支撑。

当前挑战

CUAHarm数据集致力于解决计算机使用代理在真实环境中的危害性量化难题，其核心挑战在于如何精准定义并验证多步骤恶意操作的执行效果，例如防火墙关闭或数据窃取等行为的成功判定。在构建过程中，研究团队需克服场景真实性与伦理边界的平衡问题，既要模拟高威胁性的网络攻击行为，又需确保实验环境的安全隔离。此外，设计可自动验证的规则化奖励机制以替代传统依赖人工判定的评估方式，亦是该数据集实现标准化评测的重要技术挑战。

常用场景

经典使用场景

在计算机安全研究领域，CUAHarm数据集主要应用于评估具备自主计算机控制能力的智能代理（CUAs）的安全风险。该数据集通过模拟104个专家编写的现实恶意场景，如禁用防火墙、泄露机密信息等，为研究者提供了一个标准化的测试平台。在实验中，智能代理需要在沙箱环境中执行多步骤操作，其行为效果通过可验证的奖励机制进行量化，从而系统性地衡量代理在真实计算环境中的危害性。

衍生相关工作

基于CUAHarm的评估范式，已衍生出多项关注智能代理安全性的研究。例如，部分工作扩展了数据集的恶意场景库，纳入更具隐蔽性的攻击向量；另有研究结合强化学习技术，开发能主动防御恶意指令的代理架构。这些工作共同推动了《计算机使用代理危害性度量》论文中提出的安全评估框架的演进，为后续关于AI代理行为边界控制的研究奠定了方法论基础。

数据集最近研究