mcphunt-benchmark/mcphunt-agent-traces

Name: mcphunt-benchmark/mcphunt-agent-traces
Creator: mcphunt-benchmark
Published: 2026-05-01 01:10:01
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/mcphunt-benchmark/mcphunt-agent-traces

下载链接

链接失效反馈

官方服务：

资源简介：

MCPHunt代理跟踪数据集来自MCPHunt评估框架，用于测量多服务器MCP代理中的跨边界数据传播。数据集包含三个主要部分：main/（来自5个模型的3,615条跟踪记录）、mitigation/（来自提示缓解研究的2,706条跟踪记录）和meta/（用于统计分析的结果和数据）。数据集涵盖了147个任务和7种环境变体，每个跟踪记录包含任务ID、环境类型、风险机制、结果等多个字段。

Agent execution traces from the MCPHunt evaluation framework, measuring cross-boundary data propagation in multi-server MCP agents. The dataset includes three main parts: main/ (3,615 traces from 5 models), mitigation/ (2,706 traces from the prompt-mitigation study), and meta/ (aggregated results and regression data for statistical analysis). The dataset covers 147 tasks and 7 environment variants, with each trace containing fields such as task_id, env_type, risk_mechanism, outcome, etc.

提供机构：

mcphunt-benchmark

搜集汇总

数据集介绍

构建方式

MCPHunt Agent Traces数据集源自于对多服务器MCP代理中跨边界数据传播的评估框架MCPHunt，旨在系统性度量智能体在复杂环境下的信息流行为。构建过程涵盖147个任务与7种环境变体（包括风险型、良性及硬负样本等），对5种先进模型（如GPT-5.4、DeepSeek-V4-Flash等）进行实际执行，收集了共计3,615条主轨迹数据。此外，还针对提示缓解策略设计了M0至M3四个层级的对照实验，额外采集了2,706条轨迹，以支持安全增强方法的比较分析。所有轨迹以JSON格式存储，每条记录包含任务标识、环境类型、风险机制、执行结果及详细工具调用日志等结构化信息。

使用方法

在使用MCPHunt Agent Traces数据集时，研究者可直接从HuggingFace仓库下载对应模型的主轨迹或缓解实验子集，每条JSON记录均可独立解析。建议用户首先筛选所需的环境变体（如benign或risky系列）与模型类型，再利用预定义的`task_id`和`outcome`字段进行风险分布统计。对于安全缓解研究，可重点分析`mitigation/`子集中的不同缓解等级（M0至M3）对代理行为的调控效果。此外，数据集中`meta/`目录下的聚合结果与回归数据可辅助建立预测模型，用于刻画数据传播路径与异常信号之间的关联，从而为多服务器MCP代理的安全部署提供实证支撑。

背景与挑战

背景概述

在大语言模型智能体（Agent）与模型上下文协议（MCP）深度融合的背景下，跨服务器数据传播的安全性与合规性已成为制约多智能体系统落地的关键瓶颈。MCPHunt Agent Traces数据集由匿名研究团队于2026年构建，聚焦于多服务器MCP智能体在执行复杂任务时发生的跨边界数据传播现象。该数据集包含来自GPT-5.4、DeepSeek-V4-Flash、Gemini-3.1-Pro等5个主流模型的6,321条执行轨迹，覆盖147个任务及7种环境变体，系统性地刻画了智能体在良性与风险场景下的行为差异。作为首个针对MCP智能体安全性的基准数据集，它不仅为数据传播风险的可量化评估提供了标准化框架，更推动了智能体安全领域从定性讨论向实证研究的范式转变。

当前挑战

该数据集所解决的领域核心挑战在于：多服务器MCP智能体在跨域调用工具时，如何检测并防范敏感数据在无授权服务器间的隐性传播。这一问题与经典的安全边界保护不同，其难点在于智能体行为的高动态性与环境依赖——相同任务在不同风险配置下可能产生截然不同的数据流动路径。在构建过程中，团队面临两大技术挑战：一是需要设计能够模拟真实MCP生态的复合风险机制（如Risky_v1/v2/v3与Hard_neg_v1/v2/v3），以触发隐蔽的数据泄漏行为；二是必须建立跨11个风险信号的精细化标注体系，使每条轨迹的微小泄漏倾向均可被机器可读地标记，这对标注一致性和模型之间的可比性提出了极高要求。

常用场景

经典使用场景

在人工智能与代理系统交叉领域，MCPHunt Agent Traces数据集作为评估多服务器模型上下文协议（MCP）代理中跨边界数据传播行为的标准化基准，广泛应用于智能体安全性研究。该数据集记录了5种先进语言模型在147项任务、7种环境变体下产生的数千条代理执行轨迹，尤其聚焦于风险信号检测与数据泄露模式分析。研究者可借此系统性地考察代理在良性、恶意及硬负样本环境中的行为差异，从而构建更鲁棒的代理安全评估框架。

解决学术问题

该数据集精准回应了多服务器MCP代理系统中数据泄露与隐私合规这一核心学术难题。传统的代理评估多关注任务完成效率，却忽视了跨域数据传播带来的安全风险。MCPHunt Agent Traces引入11种精细化风险信号标注机制，首次提供了量化跨边界数据传播行为的标准化度量工具。这不仅填补了代理安全评估的方法论空白，更深刻推动了可解释安全行为分析的发展，为构建可信赖的自主代理系统奠定了实证基础。

实际应用

在实际部署中，该数据集可助力企业级MCP代理的安全合规审计，帮助开发团队甄别模型在跨服务器协作时的异常数据流动。同时，它支持自动化的提示注入缓解策略效果评估，通过对比不同防御等级（M0至M3）下的代理行为，为安全工程师提供量化决策依据。金融、医疗等对数据隔离要求严苛的行业，可借助该数据集验证代理系统的隐私保护能力，降低敏感信息泄露风险。

数据集最近研究