ATBench
收藏ATBench 数据集概述
数据集简介
ATBench 是一个用于长视野、使用工具的人工智能代理的轨迹级安全基准测试家族。该基准测试旨在评估和诊断AI代理的安全性。
版本信息
数据集采用版本化命名方案:
- ATBench:最新的1000条轨迹版本。
- ATBench500:原始500条轨迹版本,随AgentDoG论文发布。
发布详情
| 版本 | 状态 | 案例数 | 安全 | 不安全 | 可用工具数 | 已使用工具数 | 平均轮次 | 平均令牌数 | 访问地址 |
|---|---|---|---|---|---|---|---|---|---|
ATBench |
最新 | 1,000 | 503 | 497 | 2,084 | 1,954 | 9.01 | 3.95k | https://huggingface.co/datasets/AI45Research/ATBench |
ATBench500 |
旧版 | 500 | 250 | 250 | 1,575 | 1,357 | 8.97 | 1.52k | https://huggingface.co/datasets/AI45Research/ATBench |
可用工具数统计了每条轨迹的工具池中暴露的唯一工具。 已使用工具数统计了已发布轨迹中实际调用的唯一工具。
任务定义
两个版本均在轨迹级别评估安全性。 每个样本是一个完整的执行轨迹,包含用户请求、代理响应、工具调用和环境反馈。评估者必须:
- 预测整个轨迹是
safe还是unsafe; - 对于不安全的轨迹,沿着三个分类维度进行诊断:
- 风险来源:风险进入轨迹的位置;
- 失败模式:不安全行为如何展开;
- 现实世界危害:产生了何种下游危害。
安全分类法
ATBench 沿着三个诊断维度组织不安全轨迹:风险来源、失败模式和现实世界危害。该分类法包含8个风险来源类别、14个失败模式类别和10个现实世界危害类别,并作为基准构建和分析的共享细粒度标签空间。
最新版本:ATBench
ATBench 是当前的主要版本。
- 规模:1,000条轨迹。
- 标签平衡:503条安全 / 497条不安全。
- 交互视野:平均9.01轮。
- 工具覆盖:2,084个可用工具和1,954个已调用工具。
- 质量控制:基于规则的过滤、基于LLM的过滤以及完整的人工审核。
生成流程
ATBench 通过一个分类法指导的数据生成引擎构建,旨在现实约束下最大化多样性。从采样的风险和候选工具池开始,规划器生成轨迹蓝图,然后通过查询生成、风险注入、工具调用模拟、工具响应模拟和代理响应生成进行实例化。验证层在发布前进一步应用基于规则和基于LLM的过滤。
旧版本:ATBench500
ATBench500 是AgentDoG项目的原始版本。为向后兼容和历史比较而保留。
- 规模:500条轨迹。
- 标签平衡:250条安全 / 250条不安全。
- 交互视野:平均8.97轮。
- 工具覆盖:1,575个可用工具。
快速开始
python from datasets import load_dataset atbench = load_dataset("AI45Research/ATBench", "ATBench", split="test") atbench500 = load_dataset("AI45Research/ATBench", "ATBench500", split="test")
引用
如果使用此基准家族,请引用相应的发布。 bibtex @article{li2026atbench, title={ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis}, author={Yu Li and Haoyu Luo and Yuejin Xie and Yuqian Fu and Zhonghao Yang and Shuai Shao and Qihan Ren and Wanying Qu and Yanwei Fu and Yujiu Yang and Jing Shao and Xia Hu and Dongrui Liu}, journal={arXiv preprint arXiv:2604.02022}, year={2026}, doi={10.48550/arXiv.2604.02022}, url={https://arxiv.org/abs/2604.02022} }
@article{liu2026agentdog, title={AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security}, author={Yu Li and Haoyu Luo and Yuejin Xie and Jiapeng Gu and Yuhan Wang and Yanwei Fu and Yujiu Yang and Jing Shao and Xia Hu and Dongrui Liu}, journal={arXiv preprint arXiv:2601.18491}, year={2026}, url={https://arxiv.org/abs/2601.18491} }




