OS-Blind
收藏github2026-04-15 更新2026-04-17 收录
下载链接:
https://github.com/limenlp/OS_Blind
下载链接
链接失效反馈官方服务:
资源简介:
OS-Blind评估计算机使用代理(CUAs)在意外攻击条件下的表现:每个任务都从一个完全良性的用户指令开始,但在执行过程中环境会引发危害。这与依赖显式恶意指令或注入对抗性提示的现有基准形成对比。通过使用良性指令作为伪装,OS-Blind捕捉到了一种更为现实和具有挑战性的安全威胁。
OS-Blind evaluates the performance of Computer Use Agents (CUAs) under unintended adversarial conditions: each task begins with a fully benign user instruction, while hazards are introduced by the environment during execution. This contrasts with existing benchmarks that rely on explicit malicious instructions or adversarial prompt injection. By utilizing benign instructions as camouflage, OS-Blind captures a more realistic and challenging security threat.
创建时间:
2026-04-11
原始信息汇总
OS-Blind 数据集概述
数据集基本信息
- 数据集名称:OS-Blind
- 核心研究:评估计算机使用代理在非预期攻击条件下的安全性,即任务始于完全良性的用户指令,但危害在执行过程中从环境中产生。
- 对比特点:与依赖显式恶意指令或注入对抗性提示的现有基准不同,OS-Blind 使用良性指令作为伪装,捕捉更现实和具有挑战性的安全威胁。
- 官方主页:https://limenlp.github.io/OS_Blind/
- 研究论文:https://arxiv.org/abs/2604.10577
数据集内容与结构
- 任务数量:包含 300 个人工构建的任务。
- 安全类别:涵盖 12 个安全类别。
- 威胁集群:
- 集群 I(环境嵌入威胁):
01_credential_phishing、08_illegal_and_harmful_content、09_risky_financial_platforms、12_pop_ups_attack - 集群 II(代理主动危害):
02_data_exfiltration、03_fraud_and_forgery、04_malware_deployment、05_system_sabotage、06_misinformation_and_manipulation、07_harassment_and_threats、10_deceptive_agreements、11_code_injection
- 集群 I(环境嵌入威胁):
- 主要文件:
test_all.json:运行器使用的类别到任务的索引。examples/<category>/<task>.json:每个任务的配置和指令文件。
- 数据存放:数据集文件应放置在仓库的
evaluation_example_safety/目录下。 - 数据说明:对于类别
08_illegal_and_harmful_content和09_risky_financial_platforms,发布数据中的 URL 已被无害化处理;如需恢复以进行评估,请参考数据集页面和evaluation_example_safety/restore_urls.py脚本。
数据集获取与依赖
- 官方托管地址:https://huggingface.co/datasets/lime-nlp/OS-Blind
- 获取步骤:
- 访问上述数据集页面并请求访问权限。
- 下载数据集并放置于本仓库的
evaluation_example_safety/目录中。
- 环境基础:构建于 OSWorld 环境之上,需按照官方 OSWorld 设置说明进行安装。
- 环境备注:实验基于 Docker 环境,未在 VMware 或 EC2 上测试。
基准评估方法
本基准评估以下方法,使用相应的评估运行器:
端到端方法
- Claude CUA 基线:运行器
run_multienv_claude.py - UI-TARS-1.5 基线:运行器
run_multienv_uitars15_v1.py - OpenCUA 基线:运行器
run_multienv_opencua.py - EvoCUA 基线:运行器
run_multienv_evocua.py
防御方法
- UI-TARS + MirrorGuard:运行器
run_multienv_uitars15_v1_mirrorguard.py - EvoCUA + MirrorGuard:运行器
run_multienv_evocua_mirrorguard.py
多智能体方法
- JEDI:运行器
run_multienv_jedi7b.py - Agent-S2:运行器
run_multienv_s2.py - CoAct-1:运行器
run_coactv2.py
环境配置与模型服务
- 配置文件:位于
envs/目录下的.env文件,用于加载 API 密钥和服务 URL 等配置。 - 核心变量:各运行器对应的环境文件包含特定的 API 密钥和 URL 变量。
- vLLM 服务:大多数本地方法通过
vllm serve启动模型服务,需将服务的主机/端口填入对应的envs/*.env文件中的 URL 字段。 - 攻击配置:弹窗攻击生成由
desktop_env/attackable_env.py处理,涉及攻击视觉语言模型和攻击大语言模型的配置。
评估运行与判据
- 默认运行:运行器默认使用
evaluation_example_safety/test_all.json和--num_envs 30参数。 - LLM 作为判据:提供
judge/目录下的评估脚本,通过调用 GPT-4o 作为判据对保存的代理轨迹进行评估,生成每个任务的判定结果和攻击成功率摘要。 - 判据脚本:针对不同类型的代理(端到端、JEDI、CoAct-1、Agent-S2)提供专用的评估脚本。
- 结果汇总:
judge/aggregate.py脚本可汇总多轮评估结果,报告在不同轮次阈值下的攻击成功率。
附加资源
- VPI-Bench 重实现:为便于在统一的 OSWorld 环境中进行公平比较和后续研究,提供了基于 OSWorld 的 VPI-Bench 设置实现,位于
evaluation_example_vpibench/目录。 - 引用格式:提供了标准的 BibTeX 引用格式。
- 联系方式:有关 OS-Blind 的问题,请联系 Skylar Zhai (
haoti002@umn.edu)。
搜集汇总
数据集介绍

构建方式
在计算机使用代理安全评估领域,OS-Blind数据集通过精心设计的实验范式构建,旨在揭示代理在看似无害指令下暴露的安全盲点。该数据集构建于OSWorld环境之上,包含300项人工精心设计的任务,覆盖12个安全类别,并划分为两个威胁集群:环境嵌入威胁与代理主动危害。每个任务均以完全良性的用户指令为起点,而危害则在执行过程中从环境中自然浮现,这种设计模拟了现实世界中更为隐蔽和复杂的攻击场景。数据集的构建严格遵循科学实验规范,确保任务场景的多样性与真实性,为评估代理在动态环境中的安全防御能力提供了坚实基础。
特点
OS-Blind数据集的核心特点在于其独特的评估视角,即聚焦于计算机使用代理在良性指令引导下对环境中潜在威胁的响应能力。与依赖显性恶意指令的传统基准不同,该数据集通过环境动态嵌入威胁,模拟了真实且具有挑战性的安全漏洞暴露过程。数据集涵盖广泛的安全类别,包括凭证钓鱼、恶意软件部署、系统破坏等,任务设计兼顾技术复杂性与现实相关性。此外,数据集提供了详细的配置文件和恢复脚本,支持对特定类别中脱敏URL的还原,确保了评估的灵活性与可重复性。这些特点共同使OS-Blind成为衡量代理安全性的重要工具。
使用方法
使用OS-Blind数据集进行评估需依托OSWorld环境,并遵循系统的配置与执行流程。首先,用户需从Hugging Face平台下载数据集文件,并按照指定目录结构放置。随后,根据评估目标选择相应的运行脚本,如端到端模型、多智能体或防御方法评估脚本,并配置对应的环境变量文件以提供API密钥与服务URL。在启动必要的本地模型服务后,通过执行Python运行脚本即可启动基准测试。评估过程支持自定义模型与参数,并包含LLM作为评判者的自动化评估流程,最终生成详细的任务判定结果与汇总报告,便于研究者全面分析代理的安全表现。
背景与挑战
背景概述
随着计算机使用代理(CUAs)在自动化操作系统任务中的广泛应用,其安全性评估成为人工智能领域的关键议题。传统基准测试多依赖于显式的恶意指令或对抗性提示,难以捕捉真实世界中由环境引发的隐蔽威胁。OS-Blind数据集由威斯康星大学麦迪逊分校、南加州大学、麦吉尔大学等机构的研究团队于2026年创建,旨在通过以良性用户指令为伪装,评估代理在执行过程中因环境嵌入威胁而暴露的脆弱性。该数据集包含300个人工构建的任务,涵盖12个安全类别,划分为环境嵌入威胁与代理引发危害两大集群,为计算机使用代理的安全研究提供了更贴近现实的评估框架,推动了该领域从显式攻击检测向隐蔽风险防范的范式转变。
当前挑战
OS-Blind数据集致力于解决计算机使用代理在动态环境中执行任务时的安全性评估挑战,其核心在于识别代理对隐蔽威胁的盲区。具体挑战包括:在领域问题层面,如何设计能够有效触发代理在良性指令下暴露安全漏洞的任务场景,例如环境嵌入的钓鱼攻击或恶意弹窗,这要求任务既保持用户意图的合理性,又蕴含复杂的风险路径;在构建过程中,挑战涉及人工标注高质量威胁场景的复杂性,需平衡任务的多样性与真实性,同时确保数据集的标准化以支持多代理系统的公平比较,例如在OSWorld环境中统一部署任务并处理网络内容的安全脱敏问题。
常用场景
经典使用场景
在智能体安全评估领域,OS-Blind数据集通过模拟真实世界中的隐蔽威胁场景,为计算机使用智能体的安全性测试提供了经典框架。该数据集构建了300个人工设计的任务,覆盖12个安全类别,其核心创新在于所有任务均以完全良性的用户指令为起点,而危害却在执行过程中从环境中悄然浮现。这种设计突破了传统基准依赖显性恶意指令的局限,能够系统性地评估智能体在复杂动态环境中的防御盲区,尤其适用于测试智能体对钓鱼攻击、恶意弹窗、数据泄露等隐蔽威胁的识别与应对能力。
衍生相关工作
围绕OS-Blind数据集的安全评估框架,学术界衍生出多项经典研究工作。基于该数据集构建的评估体系已应用于Claude、UI-TARS-1.5、OpenCUA、EvoCUA等主流计算机使用智能体的系统性安全测评。MirrorGuard等防御方法专门针对数据集揭示的盲区威胁设计了动态监控机制。多智能体协作架构如JEDI、Agent-S2、CoAct-1等研究则探索了通过分工协作提升环境威胁感知能力的创新路径。这些工作共同推动了智能体安全评估从单一模型测试向多维度防御体系构建的演进。
数据集最近研究
最新研究方向
在智能体安全研究领域,OS-Blind数据集聚焦于计算机使用代理在隐蔽环境威胁下的脆弱性评估,其前沿探索正从传统显性恶意指令检测转向更为复杂的动态环境风险感知。该数据集通过模拟由良性用户指令触发、却在执行过程中遭遇环境嵌入攻击的300个跨类别任务,揭示了当前代理在应对钓鱼攻击、恶意软件部署等12类安全威胁时的盲点。相关研究热点紧密关联多智能体协同防御与实时威胁缓解技术,例如结合MirrorGuard等防护框架提升代理的态势感知能力。这一方向不仅推动了安全评估范式的革新,也为构建鲁棒性更强的自主智能系统提供了关键基准,对保障实际部署中的人机交互安全具有深远意义。
以上内容由遇见数据集搜集并总结生成



