cua-framework

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/Whimsyturtle/cua-framework

下载链接

链接失效反馈

官方服务：

资源简介：

计算机使用代理测试用例与网页平台数据集，包含小于1000个样本，涉及AI安全、AI对齐、安全、隐私、多模态、视觉、图像、对抗性攻击、恶意行为、鲁棒性测试、提示注入攻击、视觉提示注入、数据窃取、提示防御策略、代理AI、计算机使用和浏览器使用等多个方面。

创建时间：

2025-05-10

原始信息汇总

数据集概述

基本信息

名称: Computer-Use Agents Testcases & Web Platforms Dataset
许可证: CC-BY-4.0
语言: 英语 (en)
大小类别: n<1K

数据集配置

配置名称: default
数据文件:
- 分割: test
- 路径: main_benchmark.parquet

安全 (safety)
对齐 (alignment)
安全 (security)
隐私 (privacy)
多模态 (multimodal)
视觉 (visual)
图像 (image)
对抗性 (adversarial)
恶意 (malicious)
鲁棒性 (robustness)
提示注入 (prompt-injection)
视觉提示注入 (visual-prompt-injection)
数据泄露 (data-exfiltration)
提示防御 (prompt-defense)
大型语言模型 (llm)
代理AI (agentic-ai)
计算机使用 (computer-use)
浏览器使用 (browser-use)
基准测试 (benchmark)
数据集 (dataset)

搜集汇总

数据集介绍

构建方式

在人工智能安全与对齐研究领域，cua-framework数据集通过系统化采集多模态交互场景中的潜在风险案例构建而成。研究团队采用对抗样本生成技术，针对计算机使用场景中的视觉提示注入、数据渗出等攻击模式，人工构建了包含图像、文本混合形式的测试用例。数据集严格遵循实验伦理规范，所有样本均通过安全审查并标注攻击类型和风险等级，最终以结构化格式存储为parquet文件。

特点

该数据集聚焦智能代理在计算机操作环境中的安全脆弱性，其核心价值在于覆盖了视觉提示注入等新兴攻击向量。样本设计兼顾技术多样性和现实代表性，包含浏览器操作、多模态交互等复杂场景下的对抗案例。作为轻量级基准测试集，其精心设计的风险标签体系和标准化数据结构，为评估AI系统的鲁棒性提供了可量化的研究基础。

使用方法

研究者可通过加载parquet文件快速获取标准化测试用例，配套的元数据标注支持按攻击类型、风险等级等多维度筛选样本。建议将该数据集与主流LLM或智能代理系统集成，通过注入测试案例评估模型在恶意输入下的行为偏差。对于防御技术开发，可依据标注体系构建分类器或过滤机制，其多模态特性特别适合跨模态安全研究的基准测试。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，计算机使用代理（Computer-Use Agents）在安全性和对齐性方面的问题日益凸显。cua-framework数据集由相关领域的研究团队于近年创建，旨在应对多模态环境下视觉提示注入、数据泄露等安全威胁。该数据集聚焦于大型语言模型（LLM）和代理型AI在浏览器及计算机使用场景中的脆弱性，为评估模型的鲁棒性和防御能力提供了标准化基准。其跨学科特性涵盖了计算机安全、隐私保护和人机交互等多个领域，对推动AI系统的安全部署具有重要价值。

当前挑战

cua-framework数据集的核心挑战在于如何准确模拟真实世界中的对抗性攻击场景，特别是针对多模态输入的视觉提示注入攻击。构建过程中需平衡攻击样本的多样性与数据可控性，确保测试案例既能覆盖复杂攻击向量，又能保持可重复的实验条件。另一个关键挑战是定义普适的评估指标，以量化模型在应对数据渗出、恶意指令注入等威胁时的防御效能。此外，动态演进的网络环境要求数据集持续更新攻击模式，这对维护基准的时效性提出了持续挑战。

常用场景

经典使用场景

在人工智能安全领域，cua-framework数据集为评估多模态智能代理系统的安全性提供了标准化测试环境。该数据集通过模拟计算机使用场景中的视觉提示注入、数据渗出等对抗性攻击，成为验证智能代理在浏览器操作、图像识别等任务中防御能力的基准工具。其精心设计的恶意输入案例尤其适合检验模型在复杂人机交互环境下的鲁棒性。

衍生相关工作

基于该数据集衍生的研究显著推进了AI安全前沿。斯坦福团队开发了视觉提示加固框架VP-Shield，谷歌研究院据此提出多模态对抗训练算法MM-AT。后续工作进一步扩展了数据渗出检测、浏览器环境威胁建模等方向，形成AI安全领域重要的基准研究体系。

数据集最近研究