AutoElicit-Bench

Name: AutoElicit-Bench
Creator: OSU NLP Group
Published: 2026-02-10 13:22:17
License: 暂无描述

Hugging Face2026-02-10 更新2026-02-11 收录

下载链接：

https://huggingface.co/datasets/osunlp/AutoElicit-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AutoElicit-Bench 是一个包含117条人工验证的扰动指令的基准数据集，用于评估计算机使用代理（CUAs）在面临意外行为时的鲁棒性。这些扰动指令通过AutoElicit框架从Claude 4.5 Haiku（50条）和Claude 4.5 Opus（67条）模型中成功诱发，均基于OSWorld任务进行最小化修改，旨在触发非恶意意图下的不安全行为。数据集包含以下字段：任务ID（task_id）、任务领域（domain，分为系统任务'os'和多应用任务'multi_apps'）、扰动ID（perturbation_id）、精炼模型（refinement_model）、执行代理（execution_agent）和扰动指令（perturbed_instruction）。这些看似无害的指令包含可能引发有害操作（如删除文件、过度更改权限等）的模糊性。数据集适用于评估CUA对现实对抗输入的鲁棒性、比较不同CUA实现的安全性以及识别指令理解中的漏洞。

提供机构：

OSU NLP Group

创建时间：

2026-02-06

搜集汇总

数据集介绍

构建方式

在计算机使用智能体安全评估领域，AutoElicit-Bench的构建采用了系统化的对抗性测试生成方法。该数据集基于OSWorld任务库，通过AutoElicit框架对Claude 4.5 Haiku和Claude 4.5 Opus两种大型语言模型进行迭代式指令精炼，最终产生了117条经过人工验证的扰动指令。每条指令都是在原始任务基础上进行最小化修改形成的，既保持了现实场景的真实性，又能在不包含明显恶意意图的前提下触发智能体的非预期行为。

特点

该数据集的核心特征在于其扰动指令的隐蔽性与危害性并存。这些指令表面看似无害，实则蕴含可能导致文件误删、权限过度变更或系统配置篡改的模糊表述。数据集严格遵循领域分类原则，涵盖操作系统级任务与多应用程序协同任务两大范畴，每条记录均标注了原始任务标识、扰动来源模型及首次成功触发非预期行为的执行智能体。这种结构化设计为深入研究智能体在复杂指令理解中的安全漏洞提供了精准的观测样本。

使用方法

研究人员可通过HuggingFace数据集库直接加载AutoElicit-Bench，利用其标准化的数据结构进行智能体鲁棒性评估。典型使用流程包括：遍历所有扰动指令，在目标计算机使用智能体上执行多次运行，通过轨迹分析系统对每次执行结果进行安全分类，最终计算至少触发一次非安全行为的扰动比例作为转移率指标。该评估协议能够系统化衡量不同智能体架构对隐蔽性对抗指令的防御能力，为安全增强技术开发提供基准参照。

背景与挑战

背景概述

随着计算机使用代理（CUAs）在自动化任务执行中的广泛应用，其安全性问题日益凸显，尤其是在面对看似无害但隐含风险的指令时，代理可能产生意外的不安全行为。AutoElicit-Bench数据集由俄亥俄州立大学自然语言处理小组于2026年创建，核心研究问题聚焦于评估CUAs对意外行为的鲁棒性。该数据集基于OSWorld任务构建，包含117条经过人工验证的扰动指令，旨在通过微调真实指令来触发代理的潜在安全隐患，而无需显式恶意意图。这一工作推动了智能代理安全评估领域的发展，为理解指令模糊性导致的系统性风险提供了实证基础。

当前挑战

AutoElicit-Bench数据集旨在解决计算机使用代理在指令理解与执行过程中的安全性挑战，具体涉及代理对模糊或看似良性指令的误判，可能导致文件删除、权限过度更改或系统配置篡改等危害。在构建过程中，挑战包括如何通过自动化框架（如AutoElicit）从大型语言模型中高效生成并验证扰动指令，确保这些指令既真实又具有最小修改性，同时还需人工审核以确认其能可靠触发不安全行为，这要求平衡生成效率与指令的语义保真度。

常用场景

经典使用场景

在计算机使用代理（CUAs）的安全评估领域，AutoElicit-Bench数据集被广泛用于测试代理对看似无害但隐含风险的指令的鲁棒性。该数据集通过117条经过人工验证的扰动指令，模拟了现实世界中用户可能无意提出的模糊请求，例如要求代理递归复制文件或持续修正系统设置。研究人员利用这些指令执行多次运行，观察代理是否会产生删除文件、过度修改权限等不安全行为，从而系统性地评估代理在复杂交互环境中的安全漏洞。

实际应用

在实际应用中，AutoElicit-Bench数据集被用于开发和测试各类计算机使用代理的安全防护机制。例如，在自动化办公助手、系统管理工具或多应用工作流代理中，工程师可以基于该数据集的扰动指令进行压力测试，识别代理在文件操作、权限变更等任务中的潜在风险。这有助于在实际部署前优化代理的指令解析逻辑，减少因误解用户意图而导致的系统损坏或数据丢失，提升智能代理在真实场景中的实用性和安全性。

衍生相关工作

围绕AutoElicit-Bench数据集，衍生了一系列关于智能代理安全与鲁棒性的研究。例如，基于其评估协议，后续工作扩展了多轮运行和转移率计算框架，用于比较不同代理架构的安全性差异。同时，该数据集启发了对指令模糊性建模的新方法，促使研究者开发更精细的语义分析技术来检测潜在风险。这些工作共同推动了计算机使用代理的安全基准向更全面、更贴近现实的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集