lihaonan0716/mcphunt-agent-traces
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lihaonan0716/mcphunt-agent-traces
下载链接
链接失效反馈官方服务:
资源简介:
MCPHunt Agent Traces数据集包含来自MCPHunt评估框架的代理执行轨迹,用于测量多服务器MCP代理中的跨边界数据传播。数据集分为三个部分:main/包含来自5个模型的3,615条轨迹,覆盖147个任务和7种环境变体;mitigation/包含来自提示缓解研究的2,706条轨迹;meta/包含用于统计分析的聚合结果和回归数据。数据集支持多种模型,包括GPT-5.4、GPT-5.2、DeepSeek-V4-Flash、Gemini-3.1-Pro和MiniMax-M2.7。每条轨迹包含任务ID、环境类型、风险机制、结果、标记(含11个风险信号)、事件(工具调用日志)、任务完成情况和持续时间等字段。
The MCPHunt Agent Traces dataset contains agent execution traces from the MCPHunt evaluation framework, measuring cross-boundary data propagation in multi-server MCP agents. The dataset is divided into three parts: main/ contains 3,615 traces from 5 models across 147 tasks and 7 environment variants; mitigation/ contains 2,706 traces from the prompt-mitigation study; and meta/ contains aggregated results and regression data for statistical analysis. The dataset supports various models, including GPT-5.4, GPT-5.2, DeepSeek-V4-Flash, Gemini-3.1-Pro, and MiniMax-M2.7. Each trace includes fields such as task_id, env_type, risk_mechanism, outcome, labeling (with 11 risk signals), events (tool-call log), task_completed, duration_s, etc.
提供机构:
lihaonan0716
搜集汇总
数据集介绍

构建方式
该数据集源自MCPHunt评估框架,专注于度量多服务器MCP代理中跨边界数据传播的安全性。数据集包含两大核心部分:主数据集(main/)包含来自5种模型(如GPT-5.4、DeepSeek-V4-Flash等)在147个任务和7种环境变体(包括风险型、良性及困难负例)下产生的3615条代理执行轨迹,每模型对应一个JSON文件;缓解研究数据集(mitigation/)涵盖3种模型在提示缓解等级M0至M3下的2706条轨迹。此外,元数据文件夹(meta/)提供聚合结果与回归数据,便于统计分析。数据集的构建通过可复现的流程实现,用户可通过GitHub仓库安装依赖并运行下载脚本以获取完整数据。
特点
数据集的核心特点在于其系统化的多维度设计:一方面,覆盖5种前沿语言模型与7种环境变体,包括3种风险机制(risky_v1/v2/v3)、良性场景及3种硬负例场景,为研究代理数据泄露提供丰富的对比素材;另一方面,每条轨迹包含task_id、env_type、risk_mechanism、outcome、labeling(含11种风险信号)、events(工具调用日志)等字段,精准刻画代理在跨服务器交互中的数据传播行为。此外,缓解研究部分通过分级提示策略(M0至M3)评估防御措施的有效性,为构建安全对齐的代理系统提供实证基础。
使用方法
数据集以JSON格式组织,用户可直接加载各模型的轨迹文件进行解析。每条轨迹的events字段记录了工具调用的完整日志,可用于复现代理行为或训练安全监控模型;labeling字段包含11种风险信号,适用于监督学习中的分类任务或风险检测基准测试。用户可通过运行`make download`命令获取数据,并通过`make reproduce`复现论文中所有统计结果。元数据文件夹中的聚合结果便于直接进行假设检验与效应量分析,适合用于代理安全研究的比较实验与可重复性验证。
背景与挑战
背景概述
在大型语言模型(LLM)与外部工具交互的浪潮中,模型上下文协议(MCP)作为连接智能体与多服务器环境的标准化接口应运而生,极大地拓展了AI代理的能力边界。然而,跨服务器边界的数据传播行为缺乏系统性的安全评估框架,成为制约该技术可靠落地的关键瓶颈。由Li Haonan、Sun Tianjun等研究者于2026年提出的MCPHunt Agent Traces数据集,正是针对这一核心研究问题而构建。该数据集由MCPHunt评估框架生成,包含来自5种前沿模型(如GPT-5.4、DeepSeek-V4-Flash等)在147项任务、7种环境变体下的3615条智能体执行轨迹,以及2706条提示缓解研究数据。其诞生为量化多服务器MCP代理中的数据泄露风险提供了标准化基准,在智能体安全领域具有开创性影响力,尤其为后续的数据传播合规性研究奠定了关键数据基础。
当前挑战
该数据集所解决的领域挑战主要围绕多服务器MCP代理中跨边界数据传播的安全性问题。在现实部署中,智能体需在多个独立服务器间协调工具调用,数据意外泄露或未经授权的跨域流动成为难以追踪的隐患。MCPHunt通过设计包含危险信号(risk signals)的细粒度标注机制,首次实现了对数据传播路径的风险量化评估,填补了该方向缺少标准化测试基准的空白。在构建过程中,挑战尤为突出:一是需要模拟涵盖正常与恶意场景的7种环境变体(如risky_v1/2/3、hard_neg_v1/2/3),以逼近真实世界的复杂攻击面;二是要保证多模型、多任务下轨迹数据的一致性与可复现性,这对提示构造与执行环境的隔离提出了极高要求;此外,如何从连续的工具调用事件中精准提取11类风险标签,并在标注中平衡推理效率与安全覆盖,也是构建时需克服的关键难题。
常用场景
经典使用场景
MCPHunt Agent Traces数据集专为评估多服务器MCP(模型上下文协议)智能体的跨边界数据传播安全性而设计。通过记录147个任务在7种环境变体(包括风险型、良性及硬负样本)下的完整智能体执行轨迹,该数据集为研究者提供了标准化基准,用于测试智能体在复杂多服务器协作场景中能否遵循数据边界约束、防止敏感信息泄露。经典用法涵盖对比不同模型(如GPT-5.4、DeepSeek-V4-Flash等)在提示注入、数据传播监控等安全维度上的表现差异。
解决学术问题
该数据集系统性地解决了多智能体系统中数据传播边界模糊这一关键安全问题。现有研究多聚焦于单智能体安全,而MCPHunt首次构建了跨服务器协同场景下数据泄漏风险的量化评估框架。它提供了11种风险信号的细粒度标注,使学术界能够检测智能体在无意识间跨越安全边界传递数据的脆弱性,填补了多协议智能体安全基准的空白,对推动AI agent安全理论的发展具有里程碑意义。
衍生相关工作
该数据集衍生出多项开创性学术工作。其配套论文提出的MCPHunt评估框架已被后续研究采纳为基准,如Prompt Mitigation研究探索了M0至M3四级提示加固策略的效果。此外,基于该数据集发表的统计分析揭示了模型规模与安全鲁棒性的非线性关系,催生了关于跨域数据传播的因果推断研究,以及针对多服务器MCP架构的新型安全协议设计,形成了Agent安全领域的核心参考体系。
以上内容由遇见数据集搜集并总结生成



