AFTraj-2K

github2026-05-12 更新2026-05-19 收录

下载链接：

https://github.com/ZBox1005/AgentForesight

下载链接

链接失效反馈

官方服务：

资源简介：

AFTraj-2K是一个统一的多智能体轨迹语料库，专门为在线审计而收集、过滤和标注。它包含2,276个多智能体轨迹（1,162个安全轨迹和1,114个不安全轨迹），涵盖数学、编码和智能体领域。

AFTraj-2K is a unified multi-agent trajectory corpus specifically collected, filtered, and annotated for online auditing. It contains 2,276 multi-agent trajectories (1,162 safe trajectories and 1,114 unsafe trajectories), covering the fields of mathematics, coding, and intelligent agents.

创建时间：

2026-05-09

原始信息汇总

AgentForesight 数据集详情

数据集概述

AgentForesight 是一个面向多智能体系统在线审计的数据集与框架。它将多智能体故障分析从传统的“事后诊断”转变为“在线审计”，即在轨迹展开过程中逐步进行审计，支持在故障传播锁定之前打开运行时干预窗口。

AFTraj-2K 数据集

数据集构成

AFTraj-2K 是一个精心策划的多智能体轨迹语料库，包含 2,276 条轨迹，覆盖三大领域：

领域	安全轨迹	不安全轨迹	总计
Math (数学)	396	397	793
Coding (编程)	361	247	608
Agentic (智能体)	405	470	875
总计	1,162	1,114	2,276

数据集特点

安全轨迹经过严格过滤，不安全轨迹由多裁判验证，并在其“决定性错误”步骤进行标注
覆盖编码、数学和智能体三类领域任务
数据集以 Parquet 格式存储，包含安全轨迹（aftraj_safe.parquet）和不安全轨迹（aftraj_unsafe.parquet）两个文件

数据访问

平台: HuggingFace 🤗
仓库地址: ZBox008003/AFTraj
许可证: CC BY 4.0

数据字段示例

不安全轨迹包含以下关键字段：conv_id（对话ID）、domain（领域）、mistake_step（错误步骤）、mistake_agent（错误智能体）

在线审计方法

核心创新

在线审计协议：在执行时逐帧审计正在展开的轨迹，而非在故障发生后进行诊断
精致到粗的强化学习训练：训练一个紧凑的在线审计器 AgentForesight-7B，首先在故障边界建立风险预期先验，然后通过结构、时机和属性优化将其细化为精确的步骤级定位

实验结果

AgentForesight-7B 在 AFTraj-2K 上达到 66.44 总体 Exact-F1，比最强商业基线 DeepSeek-V4-Pro 高出 +19.88 分
绝对步位移（ASS）降低 3 倍
在数学（77.36 vs 50.34）和编程（78.87 vs 49.32）领域取得最大提升

代码与使用

代码仓库结构

AgentForesight/ ├── inference/ │ ├── prompts.py # 审计器系统提示 + 聊天模板构建 + 解析器 │ ├── data.py # Parquet 数据加载器 │ ├── metrics.py # Exact-F1 / ASS / FAR / Step-Acc 评估指标 │ ├── infer_local.py # 本地模型审计器推理 │ └── infer_api.py # OpenAI 兼容 API 审计器推理 └── requirements.txt

数据加载示例

python from huggingface_hub import snapshot_download import pandas as pd

local_dir = snapshot_download(repo_id="ZBox008003/AFTraj", repo_type="dataset") safe = pd.read_parquet(f"{local_dir}/aftraj_safe.parquet") unsafe = pd.read_parquet(f"{local_dir}/aftraj_unsafe.parquet")

推理运行

本地模型推理：python -m inference.infer_local --model-path <模型路径> --data-dir <数据路径> --output-dir ./outputs
API 推理：python -m inference.infer_api --model gpt-4.1 --data-dir <数据路径> --output-dir ./outputs

相关链接

论文: arXiv 2605.08715
项目页面: https://zbox1005.github.io/agent-foresight/
模型检查点: 将在论文接收后于 HuggingFace 发布
代码许可证: MIT License

搜集汇总

数据集介绍

构建方式

AFTraj-2K是一个专为多智能体系统在线审计而构建的高质量轨迹数据集。研究者从Coding、Math和Agentic三大领域收集了2,276条多智能体运行轨迹，其中1,162条为安全轨迹，1,114条为不安全轨迹。每条不安全轨迹均通过多方审校机制标注出决定性错误步骤。数据构建过程遵循严格的过滤流程，确保安全与不安全样本在领域分布上的均衡性，为模型学习早期错误预警提供了可靠基础。

特点

该数据集的核心特点在于其在线审计导向的设计理念。不同于传统的事后诊断，AFTraj-2K针对多智能体系统运行中逐步展开的轨迹进行实时监控。数据集涵盖数学推理、代码生成和智能体交互三类典型场景，具有高度的领域多样性。每条轨迹均记录完整的对话历史和智能体交互序列，不安全样本额外标注了错误发生的关键步骤和出错的智能体身份，支持细粒度的时序定位分析。

使用方法

使用者可通过HuggingFace的snapshot_download接口便捷获取数据集，数据以Parquet格式存储，分为安全与不安全两个子集。利用pandas库即可加载并探索数据，包括查看对话ID、领域标签、错误步骤和错误智能体等关键字段。配套的推理脚本支持本地模型和OpenAI兼容API两种部署方式，通过设置--paper-test-split参数可仅使用论文中指定的332条测试子集进行性能评估。

背景与挑战

背景概述

随着多智能体系统在编程、数学推理及自主代理等复杂任务中的广泛应用，其运行过程中潜在的级联故障问题日益凸显。为应对这一挑战，由Boxuan Zhang、Jianing Zhu、Zeru Shi、Dongfang Liu和Ruixiang Tang等研究人员于2026年构建了AFTraj-2K数据集，该工作发表于arXiv预印本（编号2605.08715）。该数据集的核心研究问题在于将多智能体失效分析从事后诊断重新定义为在线审计——即在轨迹逐步展开的过程中实时检测关键时刻的决策错误，从而在故障传播锁定之前开启运行时干预窗口。AFTraj-2K收录了2,276条精心筛选与标注的多智能体交互轨迹，涵盖编程、数学与自主代理三大领域，包含1,162条安全轨迹与1,114条不安全轨迹，每条不安全轨迹均标注了决定性错误的步骤与智能体。该数据集不仅为多智能体系统的早期故障预测提供了标准化评估基准，还催生了AgentForesight-7B轻量级在线审计模型，其在精确F1分数上超越DeepSeek-V4-Pro等大型专有模型达19.88个百分点，为多智能体系统的可靠部署开辟了新路径。

当前挑战

AFTraj-2K数据集所解决的领域核心挑战在于多智能体系统运行时故障的早期预测问题。传统的事后诊断方法无法在故障传播前提供干预窗口，而在线审计需要仅基于不完整的前缀轨迹准确区分正常行为与即将发生的失败，这对模型的时序感知与风险预判能力提出了极高要求。在数据集构建过程中，研究者面临多重挑战：首先，需要在多个领域中收集大量完整的多智能体交互轨迹，并严格筛选出纯净的安全样本；其次，必须设计可靠的多裁判验证机制，精确定位每条失败轨迹中的决定性错误步骤，避免标注歧义；最后，需平衡各领域的样本分布（数学793条、编程608条、自主代理875条），同时确保安全与失败样本的近似对称性（1,162对1,114），以支持公平的模型训练与评估。这些挑战共同决定了数据集的质量与下游审计模型的有效性。

常用场景

经典使用场景

在多智能体系统蓬勃发展的当下，随着智能体间协作日益复杂，系统在运行过程中极易因某个智能体的决策失误而导致全局失败。AFTraj-2K数据集为在线审计这一新兴范式提供了标准化的评测平台。该数据集收录了涵盖编码、数学推理与通用智能体三个领域的2276条多智能体轨迹，每条不安全的轨迹均在决定性错误步骤处进行了精确标注。研究者可借此训练或评估能在轨迹展开过程中进行逐步骤审计的模型，即在每个时间步仅依据当前前缀判断是否应发出警报，从而在错误蔓延至不可挽回之前启动干预机制。这一经典使用场景为多智能体系统的运行时可靠性保障确立了关键的基准。

衍生相关工作

AFTraj-2K数据集的发布催生了一系列富有启发性的衍生研究工作。该数据集直接支撑了AgentForesight-7B这一紧凑型在线审计器的训练，该模型采用从粗到细的强化学习策略，首先在失败边界建立起风险预期先验，再通过结构、时机与归因三重优化将该先验精炼为精确的步骤定位能力。基于该数据集的研究框架还激发了对在线审计协议本身的理论探讨，促使研究者重新审视多智能体系统的运行时可靠性与安全性保障机制。此外，该数据集所倡导的轨迹前缀分析与决定性错误步骤标注方法，为构建更大规模、跨更多领域的多智能体故障数据集提供了方法论参考，推动整个领域向着更主动、更智能的故障预防方向持续演进。

数据集最近研究