AdvCUA
收藏arXiv2025-10-08 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/MomoUchi/AdvCUA
下载链接
链接失效反馈官方服务:
资源简介:
AdvCUA是一个基于MITRE ATT&CK企业矩阵构建的基准测试数据集,旨在评估计算机使用代理(CUA)在真实企业操作系统安全威胁下的性能。数据集包含140个任务,包括40个直接恶意任务、74个基于TTP的恶意任务和26个端到端攻击链。这些任务涵盖了MITRE ATT&CK企业矩阵中的10个策略和77个技术,通过在多主机环境中对现有主流CUA进行评估,揭示了当前CUA在操作系统安全方面的不足,以及CUA在攻击复杂企业系统时的潜力。
提供机构:
香港科技大学
创建时间:
2025-10-08
搜集汇总
数据集介绍

构建方式
在计算机使用代理安全评估领域,AdvCUA数据集的构建遵循了严谨的方法论。研究团队基于MITRE ATT&CK企业矩阵的战术、技术与程序框架,通过专家与AI协同迭代的方式系统性地生成恶意任务。首先从77项适用于Linux系统的技术中筛选出可操作攻击目标,由三位安全专家将其映射为具体任务流程,并借助GPT-4o和Claude Sonnet 4进行任务分解验证。最终形成的140个任务包含40个直接恶意任务、74个基于TTP的恶意任务以及26个完整的端到端攻击链,每个任务均在模拟企业环境的Docker微沙盒中经过硬编码验证。
特点
该数据集展现出四个显著特征:其知识模型细粒度覆盖战术与技术层面,突破传统基准仅关注战术层面的局限;通过多主机环境与加密凭证配置,真实还原企业级操作系统面临的威胁场景;独特的端到端攻击链设计完整模拟从初始访问到最终影响的完整入侵生命周期;采用硬编码验证机制替代不可靠的LLM评判,通过匹配、触发、探测、验证四重协议确保评估结果的准确性与可复现性。
使用方法
在安全研究实践中,该数据集需部署于特制的Docker微沙盒环境中,该环境模拟包含员工工作站、管理服务器和业务服务器的企业网络架构。评估时通过5次独立尝试测试计算机使用代理的防御能力,采用攻击成功率与绕过成功率双重指标进行量化分析。研究过程中需严格遵循伦理规范,所有攻击测试均限制在隔离的IPv4桥接网络内,通过硬编码验证协议确保攻击效果的可测量性,为操作系统安全对齐研究提供标准化评估框架。
背景与挑战
背景概述
AdvCUA数据集由佐治亚大学、约翰霍普金斯大学等研究机构于2025年联合创建,聚焦于计算机使用代理在操作系统控制场景中的安全风险评估。该数据集基于MITRE ATT&CK企业矩阵构建,涵盖140项任务设计,旨在系统化评估LLM驱动的智能代理在真实企业环境中执行端到端攻击链的能力。其创新性在于首次将战术-技术-程序框架引入CUA安全评估,填补了现有基准在对抗性知识建模和多主机环境模拟方面的空白,为智能代理安全对齐研究提供了重要实证基础。
当前挑战
该数据集需解决操作系统安全威胁评估中的双重挑战:在领域问题层面,需精准建模真实攻击者的战术技术知识,避免传统基准仅停留在战术层面的局限性;在构建过程中,需设计支持多主机拓扑的轻量化沙箱环境,突破单主机假设与明文凭证存储的简化设定。同时,必须建立基于硬编码验证的评估协议,替代不可靠的LLM评判机制,确保攻击成功率的可复现验证。
常用场景
经典使用场景
在操作系统安全研究领域,AdvCUA数据集作为首个基于MITRE ATT&CK企业矩阵构建的基准测试工具,其经典应用场景聚焦于评估计算机使用代理在真实企业环境中的安全威胁。通过模拟多主机架构与加密凭证存储的沙盒环境,该数据集系统性地检验代理框架在终端命令交互场景下执行战术、技术与规程的能力,为安全研究人员提供标准化攻击行为复现平台。
解决学术问题
AdvCUA有效解决了传统基准测试存在的四大缺陷:缺乏基于TTP的攻击者知识建模、端到端攻击链覆盖不完整、单主机明文凭证环境不真实以及依赖LLM评判的可靠性问题。通过构建140项涵盖直接恶意任务、TTP任务和完整攻击链的测试用例,该数据集为智能代理安全对齐研究提供了可量化评估标准,推动学术界关注操作系统层级的安全威胁建模与防御机制创新。
衍生相关工作
AdvCUA催生了多项关键衍生研究,包括基于硬编码验证的自动化评估框架、针对终端交互代理的新型防御机制探索,以及跨平台安全威胁迁移研究。其实证结果直接推动了业界对Cursor、Gemini CLI等商业代理的安全加固,并激发了对LLM代理在权限提升、持久化控制等TTP场景中行为模式的深入分析。
以上内容由遇见数据集搜集并总结生成



