ATBench

Hugging Face2026-01-26 更新2026-01-27 收录

下载链接：

https://huggingface.co/datasets/AI45Research/ATBench

下载链接

链接失效反馈

官方服务：

资源简介：

ATBench 是一个用于评估智能体在现实、长期交互中的安全性的轨迹级基准数据集。该数据集包含 500 条标注的执行轨迹（250 条安全轨迹和 250 条不安全轨迹），涉及多轮交互（平均 8.97 轮）和 1,575 种独特工具。数据集提供了基于分类体系的细粒度安全标注，支持超越简单安全/不安全二元标签的精确风险归因和诊断。数据集采用统一的三维安全分类体系，从风险来源（Risk Source）、行为失效模式（Failure Mode）和现实世界危害（Real-World Harm）三个正交维度组织风险。当前版本包含 8 个风险来源类别、14 个失效模式类别和 10 个现实世界危害类别。每个样本代表一个完整的智能体执行轨迹，包含以下字段：tool_use（交互过程中可用的工具列表）、content（多轮对话和智能体执行轨迹）、conv_id（唯一轨迹标识符）、label（二元安全标签，0 表示安全，1 表示不安全）以及风险分类标签（risk_source、failure_mode、real_world_harm）。该数据集适用于智能体安全性评估、风险诊断等研究场景，采用 Apache 2.0 许可协议发布。

创建时间：

2026-01-24

原始信息汇总

ATBench数据集概述

数据集简介

ATBench是一个用于评估智能体在现实、长程交互中安全性的轨迹级基准。它包含500条带标注的执行轨迹（250条安全/250条不安全），涉及多轮交互（平均8.97轮）和1,575个独特工具。该基准提供基于分类体系的细粒度安全标注，支持超越二元安全/不安全标签的精确风险归因和诊断。

数据集规模与构成

总轨迹数：500
安全轨迹数：250
不安全轨迹数：250
交互类型：使用工具的多轮智能体执行

标注信息

每个样本对应一条完整的智能体执行轨迹。每条轨迹均标注有轨迹级二元安全标签（label），其中0表示安全轨迹，1表示不安全轨迹。若在任意时间点观察到任何不安全行为，则该轨迹被标注为不安全。否则标注为安全，包括智能体正确识别并缓解风险（例如拒绝恶意请求）的情况。

安全分类体系

ATBench采用一个统一的、三维的智能体系统安全分类体系。该体系沿三个正交轴组织风险：

风险来源：风险在智能体循环中的起源位置，例如用户输入、环境观察、外部工具或API，或智能体的内部推理。
故障模式：不安全行为如何实现，包括有缺陷的规划、不安全的工具使用、指令优先级混淆或不安全内容生成。
现实世界危害：不安全行为造成的现实世界影响，例如隐私泄露、财务损失、人身伤害、安全损害或更广泛的社会或心理危害。

类别覆盖范围

在当前版本中，分类体系包含：

8个风险来源类别
14个故障模式类别
10个现实世界危害类别

注意：所有样本均提供细粒度的分类标签以保持模式一致性，但它们仅用于不安全轨迹。

数据结构

每个数据集样本代表一条完整的智能体执行轨迹，包含以下字段：

tool_use：交互期间智能体可用的工具列表
content：多轮对话和智能体执行轨迹
conv_id：每条轨迹的唯一标识符
label：二元安全标签（0 = 安全，1 = 不安全）
risk_source：风险来源类别
failure_mode：故障模式类别
real_world_harm：现实世界危害类别

许可信息

本数据集根据Apache 2.0许可证发布。

引用

如果在研究中使用ATBench，请引用： bibtex @article{, title={AgentGuard: Trajectory-Level Risk Assessment for Autonomous Agents}, author={Anonymous}, year={2025} }

搜集汇总

数据集介绍

构建方式

在智能代理安全评估领域，ATBench数据集的构建体现了严谨的学术方法。该数据集通过精心设计的多轮交互场景，模拟了真实世界中的长程任务执行轨迹。其核心包含500条经过人工标注的执行轨迹，其中安全与不安全轨迹各占250条，平均交互轮次达到8.97轮，并涉及1,575种独特工具。每条轨迹均被赋予一个轨迹级别的二元安全标签，标注标准基于是否在任意环节观察到不安全行为。更为精细的是，所有样本均依据统一的三维安全分类法进行标注，涵盖风险来源、失效模式与现实危害三个正交维度，为后续的风险归因与诊断提供了结构化基础。

使用方法

该数据集为评估智能代理系统的轨迹级安全性提供了标准化的基准框架。研究者或开发者可加载数据集后，利用其提供的完整轨迹数据与多级标签，对代理模型在长程、多工具交互中的安全表现进行端到端的评估。具体而言，二元安全标签可用于计算模型在区分安全与不安全轨迹上的整体性能指标，如准确率或F1分数。而精细的三维分类标签则支持更深层的诊断分析，例如识别模型在特定风险来源（如工具输出注入）或特定失效模式（如目标漂移）上的薄弱环节，从而指导模型的安全强化与迭代优化。

背景与挑战

背景概述

随着自主智能体在复杂、长程交互场景中的广泛应用，其安全性与可靠性评估成为人工智能领域的前沿议题。ATBench数据集于2025年由匿名研究团队构建，旨在为智能体轨迹级安全评估提供标准化基准。该数据集聚焦于多轮交互中智能体执行轨迹的风险识别与归因，通过引入三维安全分类体系，系统化地刻画风险来源、行为失效模式及现实危害，从而推动智能体安全研究从粗粒度评估向细粒度诊断演进。

当前挑战

在智能体安全评估领域，传统方法多局限于单轮或静态场景，难以捕捉长程交互中风险的动态累积与演变。ATBench所应对的核心挑战在于如何构建能够反映真实世界复杂性的多轮轨迹数据，并设计统一、可解释的安全分类框架以实现精准风险归因。在数据集构建过程中，研究者需克服高质量轨迹标注的困难，包括平衡安全与不安全样本的分布、确保多维度标签的一致性，以及模拟多样化工具使用场景中的潜在风险，这些都对数据采集与标注流程提出了极高要求。

常用场景

经典使用场景

在智能体安全研究领域，ATBench作为轨迹级基准测试集，其经典应用场景聚焦于评估自主智能体在复杂、长程交互中的行为安全性。该数据集通过500条标注的执行轨迹，模拟真实世界多轮工具调用场景，为研究者提供了系统化分析智能体在面临恶意输入、环境干扰或内部推理错误时风险应对能力的标准化平台。其细粒度安全标注体系支持对风险来源、失效模式及现实危害的精准归因，从而深化了对智能体动态决策过程中安全漏洞的机理理解。

解决学术问题

ATBench有效解决了智能体安全评估中轨迹级风险量化不足的学术难题。传统安全基准多关注单轮交互或静态输入输出，难以捕捉长程任务执行中风险的累积与演变。该数据集通过统一的三维安全分类法，将风险来源、失效模式与现实危害进行正交解构，使得研究者能够超越简单的二元安全标签，深入诊断智能体在规划、工具使用及指令优先级混淆等维度的系统性缺陷。这为构建可解释、可诊断的智能体安全评估框架提供了关键数据支撑。

实际应用

在实际应用层面，ATBench为开发高可靠性自主智能体系统提供了至关重要的验证工具。其轨迹级安全标注可直接用于训练风险感知的智能体模型，或作为红队测试基准，对金融交易助手、医疗决策支持系统及自动化客服等高风险场景的智能体进行前置安全审计。通过模拟工具输出注入、目标漂移等现实攻击向量，该数据集能够帮助工程团队识别智能体在复杂工作流中的潜在脆弱点，从而在设计阶段嵌入防御机制，降低隐私泄露、财务损失等现实危害的发生概率。

数据集最近研究