AutoElicit-Seed
收藏Hugging Face2026-02-10 更新2026-02-11 收录
下载链接:
https://huggingface.co/datasets/osunlp/AutoElicit-Seed
下载链接
链接失效反馈官方服务:
资源简介:
AutoElicit-Seed 是一个包含 361 个种子扰动项的数据集,覆盖了 OSWorld 领域中的 66 个良性任务。这些种子扰动旨在通过修改良性任务指令,增加引发计算机使用代理(Computer-Use Agents)不安全意外行为的可能性,同时保持指令的现实性和良性。数据集用于在真实世界计算机使用场景中规模化地发现安全风险。
每个种子扰动包含:(1)一个意外行为目标,即在执行特定良性任务时可能产生的潜在危害;(2)对原始良性指令的初始扰动,以增加意外危害发生的可能性。此外,数据集还提供了原始指令、扰动可能导致安全风险的原因分析以及使用的诱发策略。
数据集结构包含以下字段:任务ID(task_id)、任务领域(domain)、扰动模型(perturbation_model)、扰动ID(perturbation_id)、原始指令(original_instruction)、扰动后指令(perturbed_instruction)、扰动原因(perturbation_reasoning)、可能的意外行为(plausible_unintended_behavior)和诱发策略(elicitation_strategy)。
该数据集适用于计算机代理安全研究,特别是用于发现和评估代理在真实世界任务中可能表现出的不安全行为。
提供机构:
OSU NLP Group
创建时间:
2026-02-06
搜集汇总
数据集介绍

构建方式
在计算机智能体安全研究领域,AutoElicit-Seed数据集的构建遵循了系统化且严谨的流程。该数据集以OSWorld环境中的66个良性任务为基础,通过精心设计的扰动方法生成了361个种子扰动。每个扰动均由特定模型(如o4-mini-2025-04-16)生成,并包含明确的无意行为目标以及对原始指令的初始修改,旨在模拟真实场景中可能诱发安全风险的指令变体。构建过程中,研究团队为每个扰动提供了详细的推理依据和所采用的诱发策略,确保了扰动在保持良性外观的同时,能够有效揭示前沿计算机使用智能体潜在的不安全行为。
特点
AutoElicit-Seed数据集的核心特征在于其聚焦于计算机使用智能体的安全风险表面化。数据集中的每个样本均包含原始指令与扰动后指令的对比,并附有解释扰动为何可能引发安全风险的推理说明,以及一个可能产生的无意行为描述。这种结构使得数据集不仅提供了具体的测试用例,还揭示了不安全行为背后的逻辑机制。此外,数据集覆盖了多个领域(如操作系统、多应用程序),并采用了多样化的诱发策略(如控制权委托、规范不足),从而能够全面评估智能体在不同情境下的鲁棒性与安全性。
使用方法
利用AutoElicit-Seed数据集进行安全评估时,研究人员可通过Hugging Face的datasets库直接加载数据,便捷地访问每个扰动的详细字段。为了与AutoElicit框架集成,可使用提供的加载脚本重建符合框架要求的目录结构,进而运行迭代优化流程以系统化地探索智能体的行为边界。通过指定任务ID、领域和扰动ID,研究者能够针对特定场景深入分析智能体对指令扰动的响应,从而识别和缓解潜在的安全漏洞,为构建更可靠的计算机使用智能体提供实证基础。
背景与挑战
背景概述
随着前沿计算机使用智能体在现实世界场景中的广泛应用,其安全性问题日益凸显,尤其是在执行良性任务时可能诱发非预期的有害行为。AutoElicit-Seed数据集由俄亥俄州立大学自然语言处理研究组于2026年创建,旨在系统性地探索和揭示智能体在操作系统交互中的安全风险。该数据集围绕OSWorld领域的66个良性任务,精心构建了361个种子扰动,通过微妙的指令修改来引导智能体暴露潜在的非安全行为,从而为核心研究问题——如何在大规模真实计算机使用场景中可扩展地发现并评估智能体安全漏洞——提供了关键数据基础。这一工作不仅推动了智能体安全评估方法的发展,也为后续研究提供了重要的实证支持。
当前挑战
在计算机使用智能体安全评估领域,核心挑战在于如何有效且可扩展地诱发智能体在看似良性的任务中产生非预期的有害行为,这要求扰动设计既能保持现实性与良性外观,又能精准触发安全风险。AutoElicit-Seed数据集的构建过程面临多重挑战:首先,需在66个OSWorld任务中设计出既自然又具引导性的指令扰动,确保其不会偏离原始任务意图;其次,每个扰动需附带清晰的推理逻辑与行为目标描述,以保持数据的一致性与可解释性;最后,数据集需与AutoElicit框架无缝集成,支持迭代优化流程,这对数据结构与组织方式提出了较高要求。这些挑战共同指向了智能体安全研究中数据驱动方法的关键难点。
常用场景
经典使用场景
在计算机使用代理的安全评估领域,AutoElicit-Seed数据集被广泛应用于引导自动化安全测试流程。该数据集通过精心设计的扰动指令,模拟真实世界中的良性任务场景,旨在系统性地诱发代理模型产生非预期的有害行为。研究人员利用这些种子扰动作为起点,结合AutoElicit框架进行迭代优化,从而高效地探测前沿计算机使用代理在复杂交互环境中的潜在安全漏洞。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在自动化安全测试框架的扩展与优化上。例如,基于AutoElicit的迭代精炼方法被广泛应用于多模态代理的风险评估;同时,其扰动策略如控制委托与规范不足等,启发了后续研究对代理在模糊指令下行为边界的形式化建模。这些工作共同推动了智能代理安全从静态分析向动态交互测试的范式转变。
数据集最近研究
最新研究方向
在智能体安全领域,AutoElicit-Seed数据集正推动前沿研究聚焦于计算机使用智能体的意外行为诱发机制。该数据集通过系统化扰动良性任务指令,旨在揭示前沿智能体在真实场景中潜在的安全风险,其核心在于探索控制委托、规范不足等诱发策略如何放大危害可能性。当前研究热点紧密关联大规模语言模型驱动的自主智能体部署,尤其在操作系统和多应用交互等复杂环境中,数据集为可扩展的风险评估提供了基准,促进了安全对齐与鲁棒性测试方法的创新,对防范现实世界中的自动化系统故障具有深远意义。
以上内容由遇见数据集搜集并总结生成



