five

ATBench

收藏
github2026-04-09 更新2026-04-10 收录
下载链接:
https://github.com/LiYu0524/ATbench
下载链接
链接失效反馈
官方服务:
资源简介:
ATBench是一个用于长视野、使用工具的人工智能代理的轨迹级安全基准家族。最新版本在《ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis》中介绍。它包括1,000个轨迹的ATBench和500个轨迹的ATBench500,用于评估和诊断代理的安全性。

ATBench is a family of trajectory-level safety benchmarks for long-horizon, tool-using AI agents. The latest iteration is presented in the paper *ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis*. It consists of two variants: ATBench with 1,000 trajectories and ATBench500 with 500 trajectories, both intended for safety evaluation and diagnosis of AI agents.
创建时间:
2026-04-09
原始信息汇总

ATBench 数据集概述

数据集简介

ATBench 是一个用于长视野、使用工具的人工智能代理的轨迹级安全基准测试家族。该基准测试旨在评估和诊断AI代理的安全性。

版本信息

数据集采用版本化命名方案:

  • ATBench:最新的1000条轨迹版本。
  • ATBench500:原始500条轨迹版本,随AgentDoG论文发布。

发布详情

版本 状态 案例数 安全 不安全 可用工具数 已使用工具数 平均轮次 平均令牌数 访问地址
ATBench 最新 1,000 503 497 2,084 1,954 9.01 3.95k https://huggingface.co/datasets/AI45Research/ATBench
ATBench500 旧版 500 250 250 1,575 1,357 8.97 1.52k https://huggingface.co/datasets/AI45Research/ATBench

可用工具数统计了每条轨迹的工具池中暴露的唯一工具。 已使用工具数统计了已发布轨迹中实际调用的唯一工具。

任务定义

两个版本均在轨迹级别评估安全性。 每个样本是一个完整的执行轨迹,包含用户请求、代理响应、工具调用和环境反馈。评估者必须:

  1. 预测整个轨迹是safe还是unsafe
  2. 对于不安全的轨迹,沿着三个分类维度进行诊断:
    • 风险来源:风险进入轨迹的位置;
    • 失败模式:不安全行为如何展开;
    • 现实世界危害:产生了何种下游危害。

安全分类法

ATBench 沿着三个诊断维度组织不安全轨迹:风险来源失败模式现实世界危害。该分类法包含8个风险来源类别、14个失败模式类别和10个现实世界危害类别,并作为基准构建和分析的共享细粒度标签空间。

最新版本:ATBench

ATBench 是当前的主要版本。

  • 规模:1,000条轨迹。
  • 标签平衡:503条安全 / 497条不安全。
  • 交互视野:平均9.01轮。
  • 工具覆盖:2,084个可用工具和1,954个已调用工具。
  • 质量控制:基于规则的过滤、基于LLM的过滤以及完整的人工审核。

生成流程

ATBench 通过一个分类法指导的数据生成引擎构建,旨在现实约束下最大化多样性。从采样的风险和候选工具池开始,规划器生成轨迹蓝图,然后通过查询生成、风险注入、工具调用模拟、工具响应模拟和代理响应生成进行实例化。验证层在发布前进一步应用基于规则和基于LLM的过滤。

旧版本:ATBench500

ATBench500 是AgentDoG项目的原始版本。为向后兼容和历史比较而保留。

  • 规模:500条轨迹。
  • 标签平衡:250条安全 / 250条不安全。
  • 交互视野:平均8.97轮。
  • 工具覆盖:1,575个可用工具。

快速开始

python from datasets import load_dataset atbench = load_dataset("AI45Research/ATBench", "ATBench", split="test") atbench500 = load_dataset("AI45Research/ATBench", "ATBench500", split="test")

引用

如果使用此基准家族,请引用相应的发布。 bibtex @article{li2026atbench, title={ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis}, author={Yu Li and Haoyu Luo and Yuejin Xie and Yuqian Fu and Zhonghao Yang and Shuai Shao and Qihan Ren and Wanying Qu and Yanwei Fu and Yujiu Yang and Jing Shao and Xia Hu and Dongrui Liu}, journal={arXiv preprint arXiv:2604.02022}, year={2026}, doi={10.48550/arXiv.2604.02022}, url={https://arxiv.org/abs/2604.02022} }

@article{liu2026agentdog, title={AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security}, author={Yu Li and Haoyu Luo and Yuejin Xie and Jiapeng Gu and Yuhan Wang and Yanwei Fu and Yujiu Yang and Jing Shao and Xia Hu and Dongrui Liu}, journal={arXiv preprint arXiv:2601.18491}, year={2026}, url={https://arxiv.org/abs/2601.18491} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全评估领域,构建能够反映真实场景的轨迹级基准至关重要。ATBench数据集通过一个精心设计的生成管道实现,该管道以安全分类法为指导,从风险采样和候选工具池出发,规划出轨迹蓝图,随后通过查询生成、风险注入、工具调用模拟、工具响应模拟以及智能体响应生成等步骤进行实例化。为确保数据质量,生成过程还融入了基于规则的过滤、基于大语言模型的过滤以及全面的人工审核,从而在现实约束下最大化轨迹的多样性和真实性。
特点
ATBench数据集展现出多方面的显著特征,其最新版本包含一千条轨迹,在安全与不安全标签之间保持了近乎平衡的分布。该数据集覆盖了广泛的工具使用场景,提供了超过两千种可用工具,并在轨迹中实际调用了近两千种工具,平均交互轮次约为九轮,上下文长度显著。尤为重要的是,ATBench引入了三维安全分类法,从风险来源、失效模式和现实危害三个维度对不安全轨迹进行细粒度诊断,为深入分析智能体行为提供了结构化框架,其整体难度相较于先前基准也有所提升。
使用方法
对于研究人员和开发者而言,ATBench数据集的使用极为便捷。数据集托管于Hugging Face平台,用户可通过`datasets`库直接加载。具体而言,使用`load_dataset`函数并指定数据集名称、配置(如“ATBench”或“ATBench500”)以及分割集(如“test”)即可获取数据。每条样本都是一个完整的执行轨迹,包含用户请求、智能体响应、工具调用和环境反馈。评估任务要求预测轨迹的整体安全性,并对不安全轨迹沿前述三维分类法进行诊断,这为评估和提升长视野、使用工具的智能体的安全性提供了标准化的测试平台。
背景与挑战
背景概述
随着人工智能代理在长视野、工具调用场景中的广泛应用,其行为轨迹的安全性评估成为关键研究议题。ATBench数据集由AI45Research团队于2026年创建,旨在为长期、工具使用型AI代理提供轨迹级别的安全基准。该数据集的核心研究问题聚焦于对代理执行轨迹进行安全评估与细粒度诊断,通过构建包含用户请求、代理响应、工具调用及环境反馈的完整执行轨迹,推动代理安全领域的标准化评测。ATBench的发布为相关研究提供了多样且真实的评估场景,显著提升了安全诊断的维度与深度,对促进可靠智能系统的发展具有重要影响力。
当前挑战
ATBench数据集致力于解决AI代理在复杂、长序列交互中的安全性评估挑战,其核心在于对轨迹级别的安全风险进行精准分类与溯源。构建过程中的主要挑战体现在生成高度多样化且符合现实约束的轨迹数据,需通过基于规则的过滤、大语言模型筛选及人工审核等多层质量控制机制来确保数据真实性与平衡性。此外,设计涵盖风险来源、失效模式与现实危害的三维安全分类体系,并实现大规模工具池的模拟调用,进一步增加了数据构建的复杂性与技术难度。
常用场景
经典使用场景
在人工智能代理安全评估领域,ATBench作为轨迹级安全基准,其经典使用场景聚焦于对长视野、工具调用型AI代理的全面安全诊断。该数据集通过包含用户请求、代理响应、工具调用及环境反馈的完整执行轨迹,为研究者提供了一个结构化框架,用以评估代理在复杂交互过程中的安全性表现。其多维度安全分类法,涵盖风险来源、失效模式与现实危害,使得评估不仅停留于二元判断,更能深入剖析不安全行为的根源与演变路径。
衍生相关工作
围绕ATBench数据集,已衍生出一系列聚焦于代理安全诊断与增强的经典研究工作。其前身ATBench500伴随AgentDoG框架发布,开创了基于诊断护栏的代理安全评估范式。后续研究在此基础上,进一步探索了结合大语言模型进行轨迹风险自动标注、构建对抗性测试用例以增强基准挑战性,以及开发轻量级实时干预模块等技术方向。这些工作共同推动了AI代理安全从被动评估向主动防御的演进,形成了持续迭代的研究生态。
数据集最近研究
最新研究方向
随着人工智能代理在复杂任务中的广泛应用,其安全性评估成为研究焦点。ATBench作为轨迹级安全基准家族,近期研究聚焦于构建多样化、长上下文的真实场景轨迹数据,以评估工具调用代理在长期交互中的安全风险。前沿工作通过引入三维安全分类法,系统诊断风险来源、失效模式与现实危害,推动了细粒度安全分析的发展。该数据集与AgentDoG等框架结合,促进了安全防护机制的创新,为代理在金融、医疗等高风险领域的可靠部署提供了关键支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作