ATBench

Name: ATBench
Creator: 上海人工智能实验室
Published: 2026-01-26 21:45:41
License: 暂无描述

arXiv2026-01-26 更新2026-01-28 收录

下载链接：

https://github.com/AI45Lab/AgentDoG

下载链接

链接失效反馈

官方服务：

资源简介：

ATBench是由上海人工智能实验室构建的细粒度AI智能体安全基准数据集，包含2157个工具和4486轮交互数据。该数据集通过三维风险分类体系（风险来源、失败模式、现实危害）系统化标注智能体轨迹中的安全隐患，数据来源于模拟环境中的多轮工具调用和用户交互。数据集采用合成生成与人工标注相结合的方式构建，旨在解决复杂交互场景下智能体行为安全评估与风险溯源问题，为AI安全护栏系统提供标准化测试平台。

ATBench is a fine-grained AI Agent safety benchmark dataset developed by Shanghai AI Laboratory. It includes 2157 tools and 4486 rounds of interactive data. This dataset systematically annotates security hazards within agent trajectories via a three-dimensional risk classification framework encompassing risk sources, failure modes, and real-world harms. The data is collected from multi-round tool invocations and user interactions in simulated environments. Constructed by combining synthetic generation and manual annotation, ATBench is designed to tackle the challenges of AI agent behavior safety evaluation and risk traceability in complex interaction scenarios, and serve as a standardized test platform for AI safety guardrail systems.

提供机构：

上海人工智能实验室

创建时间：

2026-01-26

原始信息汇总

AgentDoG 数据集概述

数据集基本信息

数据集名称：ATBench (Agent Trajectory Safety and Security Benchmark)
发布平台：Hugging Face Datasets
下载地址：https://huggingface.co/datasets/AI45Research/ATBench
关联项目：AgentDoG（一个用于自主代理的风险感知评估与防护框架）

数据集规模与构成

轨迹数量：500 条轨迹（250 条安全 / 250 条不安全）
交互轮次：平均每条轨迹约 8.97 轮，总计约 4486 次轮次交互
工具库：
- 轨迹中出现的独特工具：1575 个
- 独立的未见工具库：包含 2292 个工具定义（与训练工具无重叠）

标注信息

二元标签：每条轨迹标注为 safe（安全）或 unsafe（不安全）
细粒度标签：对于被标注为 unsafe 的轨迹，额外提供以下三维标签：
1. 风险来源：威胁在代理循环中的起源位置（例如，用户输入、环境观察、外部工具/API、代理内部推理）
2. 失效模式：不安全行为的具体表现形式（例如，有缺陷的规划、不安全的工具使用、指令优先级混淆、不安全内容生成）
3. 现实世界危害：造成的现实影响（例如，隐私泄露、财务损失、人身伤害、安全漏洞、社会/心理危害）

数据集目的与应用

核心目的：用于轨迹级别的安全评估和细粒度风险诊断。
应用场景：
- 作为评估自主代理安全性的基准。
- 用于训练和评估如 AgentDoG 这样的轨迹级风险分类器或防护模块。

关联模型与资源

技术报告：https://arxiv.org/pdf/2601.18491
预训练模型：基于多个基础模型（Qwen3-4B-Instruct-2507, Qwen2.5-7B-Instruct, Llama3.1-8B-Instruct）微调的 AgentDoG 系列模型，用于轨迹安全评估与风险诊断。
模型下载：可通过 Hugging Face 或 ModelScope 平台搜索以 AgentDoG- 开名的检查点获取。

搜集汇总

数据集介绍

构建方式

在人工智能代理安全评估领域，ATBench的构建采用了基于三维风险分类法的系统性合成方法。该数据集通过一个多阶段规划驱动流程生成，首先从风险来源、失败模式和现实危害三个正交维度中独立采样风险配置元组，随后利用包含超过一万种工具的库，设计连贯的多步骤任务计划，并在轨迹合成阶段通过编排器控制执行流，模拟用户查询生成、工具交互和代理响应。为确保数据质量，实施了两层质量控制机制，包括结构完整性检查和基于大语言模型的语义对齐验证，最终形成了覆盖广泛风险类别且工具多样性显著超越现有基准的高质量轨迹集合。

使用方法

ATBench主要用于评估人工智能代理在复杂、长视野交互中的安全性能。研究人员可将完整的代理轨迹输入至待评估的模型，执行轨迹级安全评估任务，即判断轨迹中是否存在任何不安全行为，并计算准确率、精确率、召回率等标准指标。对于被判定为不安全的轨迹，可进一步进行细粒度风险诊断，要求模型输出对应的风险来源、失败模式及现实危害的具体类别，以此评估模型的风险溯源与解释能力。该基准支持对通用大模型与专用防护模型的对比测试，为代理安全护栏的研发与改进提供了系统化的评估框架。

背景与挑战

背景概述

随着大型语言模型（LLM）的演进，自主人工智能代理在复杂规划、工具使用和长程任务执行中的应用日益广泛，这带来了由自主工具使用和环境交互引发的复杂安全与安保挑战。现有护栏模型在代理场景中缺乏风险感知与诊断透明度。为应对这一需求，上海人工智能实验室于2025年提出了ATBench数据集，作为AgentDoG诊断护栏框架的核心组成部分。该数据集旨在构建一个细粒度的代理安全基准，通过统一的三维分类法（风险来源、失效模式、现实危害）对代理风险进行正交分类，从而系统覆盖复杂且多样的风险行为。ATBench的创建标志着代理安全评估从粗粒度二元标签向可解释、细粒度诊断的重要转变，为代理对齐和风险溯源提供了关键的数据基础，对推动安全可靠的人工智能代理发展具有深远影响。

当前挑战

ATBench数据集致力于解决代理安全领域的核心挑战，即对多步交互轨迹中复杂风险行为的细粒度诊断与评估。其首要挑战在于如何超越传统的二元安全分类，实现对风险来源、行为失效模式和现实危害的多维度精准标注，这要求标注体系具备高度的结构化和正交性。在构建过程中，数据集面临合成轨迹的质量控制难题，包括确保多轮交互的结构完整性、工具调用的合理性，以及风险注入与标注标签的一致性。此外，为了保障评估的泛化能力，需采用工具级分割策略，确保评估工具与训练工具无重叠，这增加了数据合成与验证的复杂性。最后，协调多智能体验证与人工审核以获取可靠标签，也是构建高质量基准的关键挑战。

常用场景

经典使用场景

在人工智能代理安全研究领域，ATBench作为细粒度的代理安全基准，其经典使用场景聚焦于评估和诊断自主代理在复杂交互轨迹中的风险行为。该数据集通过构建多轮工具调用轨迹，模拟真实世界中的代理执行过程，涵盖恶意用户指令、间接提示注入、工具反馈污染等多种风险源。研究者利用ATBench对代理安全护栏模型进行系统性测试，不仅判断轨迹整体安全性，更能深入剖析风险根源、失败模式及潜在危害，从而推动代理安全技术的精细化发展。

解决学术问题

ATBench有效解决了代理安全研究中风险评估粒度不足、诊断透明度缺失等关键学术问题。传统安全基准多提供二元安全标签，难以揭示风险的具体成因与演变路径。ATBench引入三维正交分类法，从风险来源、失败模式和现实危害三个维度对代理行为进行结构化解析，使得研究者能够精准定位代理决策链中的薄弱环节。这种细粒度诊断能力为理解代理在开放环境中的失效机制提供了实证基础，促进了可解释性安全框架的发展，并推动了代理对齐技术从结果监控向过程溯源的范式转变。

实际应用

在实际应用层面，ATBench为部署在金融、医疗、公共管理等高风险领域的AI代理系统提供了至关重要的安全评估工具。企业可利用该数据集训练和验证安全护栏模型，确保代理在处理敏感操作时能识别并抵御工具描述注入、恶意工具执行等新型攻击。例如，在自动化客户服务或智能运维场景中，ATBench帮助开发团队模拟各类风险交互，提前发现代理可能产生的未授权操作或资源滥用行为，从而降低系统被恶意利用的概率，增强业务连续性与合规性。

数据集最近研究