ATBench
收藏github2026-01-26 更新2026-01-27 收录
下载链接:
https://github.com/AI45Lab/AgentDoG
下载链接
链接失效反馈官方服务:
资源简介:
ATBench(代理轨迹安全与安全基准)是一个用于轨迹级安全评估和细粒度风险诊断的数据集。它包括500个轨迹(250个安全/250个不安全),每个轨迹约8.97个回合(约4486个回合交互)。数据集包含1575个独特工具,以及一个独立的未见工具库,包含2292个工具定义(与训练工具无重叠)。标签包括二进制“安全”/“不安全”;不安全轨迹还包括细粒度标签(风险来源、故障模式、现实世界危害)。
ATBench (Agent Trajectory Safety and Security Benchmark) is a dataset designed for trajectory-level safety evaluation and fine-grained risk diagnosis. It includes 500 trajectories (250 safe / 250 unsafe), with approximately 8.97 rounds per trajectory, totaling around 4486 interactive rounds. The dataset contains 1575 unique tools, alongside an independent unseen tool library with 2292 tool definitions that have no overlap with the training tools. The labels include binary "safe"/"unsafe" categories; for unsafe trajectories, fine-grained labels covering risk sources, failure modes, and real-world hazards are also provided.
创建时间:
2026-01-08
原始信息汇总
AgentDoG 数据集概述
数据集基本信息
- 数据集名称: ATBench (Agent Trajectory Safety and Security Benchmark)
- 发布地址: https://huggingface.co/datasets/AI45Research/ATBench
- 主要用途: 用于轨迹级安全评估和细粒度风险诊断。
数据集规模与内容
- 轨迹数量: 500条轨迹(250条安全 / 250条不安全)。
- 交互轮次: 平均每条轨迹约8.97轮,总计约4486轮交互。
- 工具库:
- 轨迹中出现的独特工具数量:1575个。
- 独立的未见工具库:包含2292个工具定义(与训练工具无重叠)。
- 标注类型:
- 二元标签:
safe(安全)或unsafe(不安全)。 - 对于不安全轨迹,额外提供细粒度标签:风险来源(Risk Source)、失效模式(Failure Mode)、现实世界危害(Real-World Harm)。
- 二元标签:
安全分类体系
数据集采用统一的三维安全分类体系对智能体风险进行组织:
- 风险来源: 威胁在智能体循环中的起源(例如:用户输入、环境观察、外部工具/API、智能体内部推理)。
- 失效模式: 不安全行为的表现形式(例如:有缺陷的规划、不安全的工具使用、指令优先级混淆、不安全内容生成)。
- 现实世界危害: 造成的现实影响(例如:隐私泄露、财务损失、人身伤害、安全漏洞、更广泛的社会/心理危害)。
- 当前版本分类数量: 8个风险来源类别、14个失效模式、10个现实世界危害类别。
数据合成方法
数据通过分类体系引导的合成流程生成,旨在生成真实、多步骤的智能体轨迹。
- 流程: 基于采样的风险元组(风险来源、失效模式、现实世界危害)生成轨迹,扩展为连贯的工具增强执行序列,并通过质量检查过滤。
- 工具库规模: 显著大于现有基准(例如,约为R-Judge的86倍,ASSE-Safety的55倍,ASSE-Security的41倍)。
- 分布平衡: 确保合成数据在三个分类维度(风险来源、失效模式、危害类型)上具有平衡且多样的风险分布。
性能亮点(基于ATBench等基准)
- 二元轨迹安全评估: 在R-Judge、ASSE-Safety和ATBench基准上优于现有方法。
- 细粒度风险诊断准确率(最佳FG模型):
- 风险来源准确率:82.0%
- 失效模式准确率:32.4%
- 危害类型准确率:59.2%
相关模型
数据集用于训练和评估名为 AgentDoG 的风险感知评估与防护框架模型。该框架提供两种任务模型:
- 轨迹级安全评估模型(二进制): 预测整个轨迹为
safe或unsafe。 - 细粒度风险诊断模型(FG): 对
unsafe轨迹,额外预测(风险来源,失效模式,现实世界危害)元组。
已发布的模型基于不同基础模型微调,详情见项目主页模型列表。
许可证
- 本项目依据 Apache 2.0 许可证 发布。
搜集汇总
数据集介绍

构建方式
在自主智能体安全评估领域,ATBench数据集的构建采用了基于分类学的合成管道方法。该流程以风险元组(风险来源、失效模式、现实危害)为条件,生成真实且多步骤的智能体执行轨迹。通过质量过滤确保数据可靠性,并利用规模远超现有基准的工具库(包含1575个轨迹内工具及2292个独立未见工具),以反映实际工具使用场景。数据分布覆盖了分类学中三个维度的风险类别,确保了风险类型的平衡与多样性,最终形成了包含500条轨迹(安全与不安全各半)、约4486次交互的大规模评估基准。
使用方法
ATBench数据集主要用于评估智能体在轨迹层面的安全性能。研究人员可通过Hugging Face平台下载数据集,并利用其进行二元安全分类或细粒度风险诊断任务。数据集与AgentDoG等防护模型兼容,用户可部署相应模型,通过提供的提示模板加载轨迹数据,执行安全评估。例如,使用二进制轨迹审核时,结合任务定义、轨迹数据及输出格式模板;进行细粒度诊断时,需额外引入安全分类学参考。数据集支持通过SGLang或vLLM等框架部署为API服务,便于集成到现有智能体系统中进行实时风险监控与评估。
背景与挑战
背景概述
ATBench(Agent Trajectory Safety and Security Benchmark)是由AI45Research团队于2025年发布的数据集,专注于评估自主代理在轨迹层面的安全性与风险诊断。该数据集旨在解决多步工具调用代理在执行过程中可能出现的复杂安全隐患,其核心研究问题在于如何系统性地检测和分类代理轨迹中涌现的风险行为。通过引入三维安全分类法(风险来源、失效模式、现实危害),ATBench为代理安全领域提供了首个大规模、细粒度标注的轨迹级评估基准,显著推动了风险感知型人工智能系统的发展,并为后续的防护模型训练与验证奠定了数据基础。
当前挑战
ATBench致力于解决的领域挑战在于,传统的内容审核方法通常仅关注单步输出或最终结果,难以捕捉代理在长序列执行中因规划错误、工具误用或环境交互引发的动态风险。构建该数据集时面临多重挑战:首先,需要合成大量真实且多样的多步代理轨迹,确保风险场景覆盖全面;其次,必须设计并应用统一的三维分类体系进行细粒度标注,这对标注的一致性与准确性提出了极高要求;此外,数据集需集成规模远超现有基准的工具库(包含数千种独特工具),以模拟现实世界中代理的复杂工具使用环境,这增加了数据生成与验证的复杂性。
常用场景
经典使用场景
在自主智能体安全评估领域,ATBench数据集作为轨迹级风险诊断的基准工具,其经典使用场景聚焦于对多步工具调用轨迹进行全面安全分析。该数据集通过模拟真实世界中的复杂交互序列,为研究者提供了评估智能体在长期规划、工具使用及环境反馈过程中是否产生安全隐患的标准测试平台。其涵盖的广泛工具库与精细标注体系,使得模型能够在多样化应用背景下,系统性地检测轨迹中潜藏的风险行为,从而推动安全防护机制从单步内容审核向全流程监控的范式转变。
解决学术问题
ATBench数据集致力于解决自主智能体研究中长期存在的安全评估难题,特别是传统方法难以捕捉的跨步骤风险传播与隐蔽性工具滥用问题。通过引入轨迹级评估框架与三维安全分类法,该数据集使学术界能够深入探究风险源头、失效模式与现实危害之间的关联机制,为构建可解释的风险诊断模型提供数据支撑。其意义在于突破了以往仅关注最终输出的局限,促进了智能体安全研究向动态、多维度分析演进,对建立可靠且透明的自主系统具有深远影响。
实际应用
在实际部署中,ATBench数据集为各类自主智能体系统提供了即插即用的安全守护模块。例如,在金融交易代理、医疗咨询助手或智能家居控制等高风险场景中,基于该数据集训练的防护模型能够实时监控智能体的执行轨迹,及时拦截由恶意指令、工具误用或推理偏差引发的安全威胁。这种能力不仅增强了智能体在开放环境中的鲁棒性,也为企业合规与用户隐私保护提供了技术保障,推动了安全可控的智能体应用落地。
数据集最近研究
最新研究方向
在自主智能体安全评估领域,ATBench数据集作为轨迹级安全与风险诊断的基准,正推动研究向多维度、细粒度的风险分析范式演进。该数据集通过引入统一的三维安全分类法,将风险溯源、失效模式与现实危害进行正交解构,为理解智能体在复杂工具使用场景中的长程风险传播机制提供了结构化框架。前沿研究聚焦于利用该数据集训练的风险感知守卫模型,如AgentDoG系列,不仅实现了对轨迹中隐蔽性风险(如指令劫持、工具误用)的高精度检测,更在可解释性人工智能方向拓展了新型的归因分析框架,通过层次化分解决策驱动因素,增强了自主系统的透明性与问责机制。这些进展回应了当前智能体规模化部署中对动态安全监控的迫切需求,为构建可靠、可信的具身智能系统奠定了关键评估基础。
以上内容由遇见数据集搜集并总结生成



