ATBench

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/LiYu0524/ATbench

下载链接

链接失效反馈

官方服务：

资源简介：

ATBench是一个用于长视野、使用工具的人工智能代理的轨迹级安全基准家族。最新版本在《ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis》中介绍。它包括1,000个轨迹的ATBench和500个轨迹的ATBench500，用于评估和诊断代理的安全性。

ATBench is a family of trajectory-level safety benchmarks for long-horizon, tool-using AI agents. The latest iteration is presented in the paper *ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis*. It consists of two variants: ATBench with 1,000 trajectories and ATBench500 with 500 trajectories, both intended for safety evaluation and diagnosis of AI agents.

创建时间：

2026-04-09

原始信息汇总

ATBench 数据集概述

数据集简介

ATBench 是一个用于长视野、使用工具的人工智能代理的轨迹级安全基准测试家族。该基准测试旨在评估和诊断AI代理的安全性。

版本信息

数据集采用版本化命名方案：

ATBench：最新的1000条轨迹版本。
ATBench500：原始500条轨迹版本，随AgentDoG论文发布。

发布详情

版本	状态	案例数	安全	不安全	可用工具数	已使用工具数	平均轮次	平均令牌数	访问地址
`ATBench`	最新	1,000	503	497	2,084	1,954	9.01	3.95k	https://huggingface.co/datasets/AI45Research/ATBench
`ATBench500`	旧版	500	250	250	1,575	1,357	8.97	1.52k	https://huggingface.co/datasets/AI45Research/ATBench

可用工具数统计了每条轨迹的工具池中暴露的唯一工具。 已使用工具数统计了已发布轨迹中实际调用的唯一工具。

任务定义

两个版本均在轨迹级别评估安全性。每个样本是一个完整的执行轨迹，包含用户请求、代理响应、工具调用和环境反馈。评估者必须：

预测整个轨迹是safe还是unsafe；
对于不安全的轨迹，沿着三个分类维度进行诊断：
- 风险来源：风险进入轨迹的位置；
- 失败模式：不安全行为如何展开；
- 现实世界危害：产生了何种下游危害。

安全分类法

ATBench 沿着三个诊断维度组织不安全轨迹：风险来源、失败模式和现实世界危害。该分类法包含8个风险来源类别、14个失败模式类别和10个现实世界危害类别，并作为基准构建和分析的共享细粒度标签空间。

最新版本：ATBench

ATBench 是当前的主要版本。

规模：1,000条轨迹。
标签平衡：503条安全 / 497条不安全。
交互视野：平均9.01轮。
工具覆盖：2,084个可用工具和1,954个已调用工具。
质量控制：基于规则的过滤、基于LLM的过滤以及完整的人工审核。

生成流程

ATBench 通过一个分类法指导的数据生成引擎构建，旨在现实约束下最大化多样性。从采样的风险和候选工具池开始，规划器生成轨迹蓝图，然后通过查询生成、风险注入、工具调用模拟、工具响应模拟和代理响应生成进行实例化。验证层在发布前进一步应用基于规则和基于LLM的过滤。

旧版本：ATBench500

ATBench500 是AgentDoG项目的原始版本。为向后兼容和历史比较而保留。

规模：500条轨迹。
标签平衡：250条安全 / 250条不安全。
交互视野：平均8.97轮。
工具覆盖：1,575个可用工具。

快速开始

python from datasets import load_dataset atbench = load_dataset("AI45Research/ATBench", "ATBench", split="test") atbench500 = load_dataset("AI45Research/ATBench", "ATBench500", split="test")

引用

如果使用此基准家族，请引用相应的发布。 bibtex @article{li2026atbench, title={ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis}, author={Yu Li and Haoyu Luo and Yuejin Xie and Yuqian Fu and Zhonghao Yang and Shuai Shao and Qihan Ren and Wanying Qu and Yanwei Fu and Yujiu Yang and Jing Shao and Xia Hu and Dongrui Liu}, journal={arXiv preprint arXiv:2604.02022}, year={2026}, doi={10.48550/arXiv.2604.02022}, url={https://arxiv.org/abs/2604.02022} }

@article{liu2026agentdog, title={AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security}, author={Yu Li and Haoyu Luo and Yuejin Xie and Jiapeng Gu and Yuhan Wang and Yanwei Fu and Yujiu Yang and Jing Shao and Xia Hu and Dongrui Liu}, journal={arXiv preprint arXiv:2601.18491}, year={2026}, url={https://arxiv.org/abs/2601.18491} }

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，构建能够反映真实场景的轨迹级基准至关重要。ATBench数据集通过一个精心设计的生成管道实现，该管道以安全分类法为指导，从风险采样和候选工具池出发，规划出轨迹蓝图，随后通过查询生成、风险注入、工具调用模拟、工具响应模拟以及智能体响应生成等步骤进行实例化。为确保数据质量，生成过程还融入了基于规则的过滤、基于大语言模型的过滤以及全面的人工审核，从而在现实约束下最大化轨迹的多样性和真实性。

特点

ATBench数据集展现出多方面的显著特征，其最新版本包含一千条轨迹，在安全与不安全标签之间保持了近乎平衡的分布。该数据集覆盖了广泛的工具使用场景，提供了超过两千种可用工具，并在轨迹中实际调用了近两千种工具，平均交互轮次约为九轮，上下文长度显著。尤为重要的是，ATBench引入了三维安全分类法，从风险来源、失效模式和现实危害三个维度对不安全轨迹进行细粒度诊断，为深入分析智能体行为提供了结构化框架，其整体难度相较于先前基准也有所提升。

使用方法

对于研究人员和开发者而言，ATBench数据集的使用极为便捷。数据集托管于Hugging Face平台，用户可通过`datasets`库直接加载。具体而言，使用`load_dataset`函数并指定数据集名称、配置（如“ATBench”或“ATBench500”）以及分割集（如“test”）即可获取数据。每条样本都是一个完整的执行轨迹，包含用户请求、智能体响应、工具调用和环境反馈。评估任务要求预测轨迹的整体安全性，并对不安全轨迹沿前述三维分类法进行诊断，这为评估和提升长视野、使用工具的智能体的安全性提供了标准化的测试平台。

背景与挑战

背景概述

随着人工智能代理在长视野、工具调用场景中的广泛应用，其行为轨迹的安全性评估成为关键研究议题。ATBench数据集由AI45Research团队于2026年创建，旨在为长期、工具使用型AI代理提供轨迹级别的安全基准。该数据集的核心研究问题聚焦于对代理执行轨迹进行安全评估与细粒度诊断，通过构建包含用户请求、代理响应、工具调用及环境反馈的完整执行轨迹，推动代理安全领域的标准化评测。ATBench的发布为相关研究提供了多样且真实的评估场景，显著提升了安全诊断的维度与深度，对促进可靠智能系统的发展具有重要影响力。

当前挑战

ATBench数据集致力于解决AI代理在复杂、长序列交互中的安全性评估挑战，其核心在于对轨迹级别的安全风险进行精准分类与溯源。构建过程中的主要挑战体现在生成高度多样化且符合现实约束的轨迹数据，需通过基于规则的过滤、大语言模型筛选及人工审核等多层质量控制机制来确保数据真实性与平衡性。此外，设计涵盖风险来源、失效模式与现实危害的三维安全分类体系，并实现大规模工具池的模拟调用，进一步增加了数据构建的复杂性与技术难度。

常用场景

经典使用场景

在人工智能代理安全评估领域，ATBench作为轨迹级安全基准，其经典使用场景聚焦于对长视野、工具调用型AI代理的全面安全诊断。该数据集通过包含用户请求、代理响应、工具调用及环境反馈的完整执行轨迹，为研究者提供了一个结构化框架，用以评估代理在复杂交互过程中的安全性表现。其多维度安全分类法，涵盖风险来源、失效模式与现实危害，使得评估不仅停留于二元判断，更能深入剖析不安全行为的根源与演变路径。

衍生相关工作

围绕ATBench数据集，已衍生出一系列聚焦于代理安全诊断与增强的经典研究工作。其前身ATBench500伴随AgentDoG框架发布，开创了基于诊断护栏的代理安全评估范式。后续研究在此基础上，进一步探索了结合大语言模型进行轨迹风险自动标注、构建对抗性测试用例以增强基准挑战性，以及开发轻量级实时干预模块等技术方向。这些工作共同推动了AI代理安全从被动评估向主动防御的演进，形成了持续迭代的研究生态。

数据集最近研究