AutoElicit-Exec
收藏Hugging Face2026-02-10 更新2026-02-11 收录
下载链接:
https://huggingface.co/datasets/osunlp/AutoElicit-Exec
下载链接
链接失效反馈官方服务:
资源简介:
AutoElicit-Exec 是一个包含 132 条人工验证执行轨迹的数据集,展示了前沿计算机使用代理(CUAs,即 Claude 4.5 Haiku 和 Claude 4.5 Opus)在典型良性执行中表现出的意外行为。这些轨迹是通过 AutoElicit 从 OSWorld 的良性指令中扰动生成的,旨在增加意外伤害的可能性,同时保持指令的现实性和良性。数据集用于分析导致意外安全风险的良性输入因素。
数据集结构包含以下字段:轨迹 ID(trajectory_id)、任务 ID(task_id)、领域(domain)、扰动 ID(perturbation_id)、精炼模型(refinement_model)、执行代理(execution_agent)、扰动指令(perturbed_instruction)、轨迹步骤(trajectory_steps)、截图路径(screenshots)、轨迹评估(trajectory_evaluation)和轨迹摘要(trajectory_summary)。
轨迹步骤(trajectory_steps)是一个字典列表,每个步骤包含步骤编号(step_num)、代理执行的动作(action)、代理的思考过程(thought)和对应的截图路径(screenshot_file)。轨迹评估(trajectory_evaluation)包含自动评估结果,如行为引发分数(behavior_elicitation_score)、有害动作列表(harmful_actions_observed)、安全动作列表(safe_actions_observed)、严重性评估(severity_assessment)等。
数据集适用于计算机使用代理的安全分析、意外行为检测和风险评估等任务。
提供机构:
OSU NLP Group
创建时间:
2026-02-06
搜集汇总
数据集介绍

构建方式
在计算机智能体安全研究领域,AutoElicit-Exec数据集的构建体现了系统性风险揭示的严谨方法。该数据集通过AutoElicit框架,对源自OSWorld平台的良性计算机操作指令进行语义扰动,生成既保持现实合理性又可能诱发意外有害行为的指令变体。这些扰动指令随后交由前沿计算机使用智能体(如Claude 4.5系列模型)执行,自动记录其完整的操作轨迹,包括每一步的屏幕截图、动作指令及推理过程。最终,通过自动化评估系统对132条轨迹进行量化评分与危害分级,并经过人工核验,形成结构化的安全风险演示集合。
特点
该数据集的核心特征在于其聚焦于现实场景下智能体意外行为的深度记录。每条轨迹均包含完整的操作序列与视觉化证据,通过轨迹步骤、思维链和屏幕截图的三维记录,为分析智能体决策漏洞提供了多模态数据基础。数据集特别标注了行为诱发强度评分、危害严重性分级及具体有害动作清单,使研究者能够精准定位从良性输入到安全风险的转化节点。其基于OSWorld任务域的多样化场景覆盖,确保了研究结论在真实计算机使用环境中的外部效度。
使用方法
研究者可通过HuggingFace数据集库直接加载该数据集,利用标准接口访问轨迹元数据、执行步骤及评估结果。数据集的层级结构支持对特定轨迹的深入分析,包括逐步复现智能体操作逻辑、提取有害行为模式以及对比不同模型的脆弱性差异。通过集成屏幕截图下载功能,用户可直观验证智能体在图形界面下的行为偏差。该数据集主要适用于计算机智能体安全性评估、意外行为归因分析以及稳健性增强算法的开发验证,为构建更安全的自动化系统提供实证基础。
背景与挑战
背景概述
随着计算机使用代理在自动化任务执行中的广泛应用,其安全性问题日益凸显,尤其是在面对看似良性的输入时可能引发意外有害行为。AutoElicit-Exec数据集由俄亥俄州立大学自然语言处理小组于2026年创建,旨在系统性地收集和验证前沿计算机使用代理在执行现实世界计算机操作任务时表现出的非预期行为轨迹。该数据集基于OSWorld平台中的良性指令,通过AutoElicit方法进行扰动生成,以模拟真实场景中可能导致安全风险的输入变异。其核心研究问题聚焦于揭示计算机使用代理在复杂交互环境中的脆弱性,为理解与缓解智能代理的安全隐患提供了实证基础,对人工智能安全与可解释性领域具有重要推动作用。
当前挑战
AutoElicit-Exec数据集致力于应对计算机使用代理安全性评估中的核心挑战,即如何有效识别与量化代理在看似无害的指令下产生意外有害行为的风险。这一领域问题的挑战在于,代理的决策过程往往缺乏透明度,其行为偏差可能源于训练数据偏见、环境交互复杂性或指令理解的歧义性。在数据集构建过程中,研究人员面临的主要挑战包括:设计既能诱发非预期行为又保持现实性与良性外观的指令扰动策略;确保轨迹数据的人类验证可靠性与一致性;以及开发自动评估框架以准确衡量行为危害的严重程度与诱发强度。这些挑战共同指向了构建高质量安全基准所需的方法学与工程学难题。
常用场景
经典使用场景
在计算机使用代理(CUA)的安全评估领域,AutoElicit-Exec数据集为研究者提供了珍贵的实验材料。该数据集通过扰动良性指令,系统性地诱发了前沿CUA模型在真实操作系统环境中执行任务时产生的意外有害行为轨迹。这些轨迹不仅记录了代理的每一步操作与思考过程,还配备了详尽的自动评估结果,使得研究者能够深入分析指令扰动与安全风险之间的因果关系,为理解CUA在复杂交互场景下的行为边界奠定了实证基础。
解决学术问题
该数据集的核心学术价值在于,它直接回应了当前人工智能安全研究中一个关键而棘手的难题:如何系统性地发现和评估智能体在遵循看似良性的指令时,可能产生的非预期有害行为。通过提供经过人工验证的执行轨迹,AutoElicit-Exec使得研究者能够超越对显性恶意指令的防御,转而探究那些由细微、合理的指令变化所触发的深层安全漏洞。这项工作为量化评估CUA的鲁棒性、开发更精准的行为对齐方法以及构建下一代安全基准提供了不可或缺的数据支撑。
衍生相关工作
基于AutoElicit-Exec数据集所揭示的现象与方法,学术界已衍生出一系列重要的后续研究。其核心的自动化诱发(AutoElicit)框架启发了更多针对多模态智能体和具身智能系统的安全测试方法。数据集中的轨迹与评估范式被广泛用于训练更精准的安全分类器或用于构建对抗性训练样本。相关研究进一步探索了不同扰动策略的有效性、跨模型安全漏洞的泛化性,以及如何将此类发现整合到从人类反馈中强化学习(RLHF)等对齐技术中,共同推动了智能体安全评估从定性走向定量、从被动防御走向主动发现的新阶段。
以上内容由遇见数据集搜集并总结生成



