five

PolicyLayer/mcp-server-catalogue

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/PolicyLayer/mcp-server-catalogue
下载链接
链接失效反馈
官方服务:
资源简介:
PolicyLayer MCP服务器目录是一个风险分类的目录,包含通过公共注册表可访问的每个模型上下文协议(MCP)服务器。每个服务器公开的每个工具都使用基于动词的分类器和输入模式启发式方法分为六个风险类别之一。该目录是PolicyLayer研究报告《MCP安全状况—2026年5月》的基础数据集。数据集包含1,787个服务器和25,329个工具,分类于2026年5月,每月更新。数据集提供了服务器的详细信息(如名称、描述、工具数量、风险类别等)和工具的详细信息(如名称、描述、风险类别、严重性、置信度等)。数据集还涵盖了风险类别的定义和典型风险权重范围,以及数据集的覆盖范围、限制和使用注意事项。

The PolicyLayer MCP Server Catalogue is a risk-classified catalogue of every Model Context Protocol (MCP) server reachable through the public registries. Each tool exposed by each server is classified into one of six risk categories using a verb-based classifier with input-schema heuristics. The catalogue is the underlying dataset for PolicyLayers research report, *The State of MCP Security — May 2026*. The dataset includes 1,787 servers and 25,329 tools, classified in May 2026 and refreshed monthly. It provides detailed information on servers (e.g., name, description, tool count, risk categories) and tools (e.g., name, description, risk category, severity, confidence). The dataset also covers the definitions and typical risk weight ranges of risk categories, as well as the coverage, limitations, and usage notes of the dataset.
提供机构:
PolicyLayer
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由PolicyLayer团队构建,旨在系统性地收录并分类Model Context Protocol(MCP)生态中公开可及的服务器与工具。数据集通过爬虫自动发现、Smithery注册表同步、手动收录种子服务器以及社区贡献扫描等多种渠道采集数据源。每台服务器暴露的每个工具均经由基于动词语法分类器与输入模式启发式规则的分析管道进行风险归类,最终将工具划分为六类风险等级。数据集以每月为周期进行更新,于每月1日发布新版本,确保内容的时效性与生态覆盖的持续扩展。
特点
数据集包含1,787台服务器与25,329个工具,每个工具均被赋予明确的分类标签(Read、Write、Execute、Destructive、Financial、Other),并伴有严重程度、置信度、风险权重等量化指标。服务器端则提供了丰富的元数据,包括源代码仓库信息、npm下载量、GitHub星标数等社区活跃度指标,便于用户评估工具的实际部署风险。分类置信度方面,72.3%的工具分类为高置信度,15.4%经过人工验证,剩余12.3%中低置信度结果供用户审慎参考。数据集仅涵盖公开注册表中的服务器,不包含私有或自托管实例,构成生态实际规模的下界估计。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,使用`load_dataset("PolicyLayer/mcp-server-catalogue")`命令即可获取servers与tools两个子集。servers子集包含每台MCP服务器的描述、来源、分类与社区指标;tools子集则通过`server_slug`字段与服务器关联,提供每个工具的风险分类、严重程度与输入模式。用户可利用这些信息进行风险审计、策略制定与安全研究,例如筛选出所有属于身份提供商类服务器的破坏性工具,或按风险权重排序以识别高风险组件。数据集采用CC-BY-4.0许可协议,允许学术与商业用途,但需标注出处。
背景与挑战
背景概述
随着大语言模型与工具调用能力的深度融合,模型上下文协议(MCP)作为连接AI代理与外部服务的标准化接口,正迅速成为构建自主智能体的关键基础设施。然而,MCP生态系统的快速扩张也引发了严峻的安全风险——恶意或配置不当的服务器可能赋予AI代理破坏性操作权限,如数据删除、资金转移或代码执行。为系统性地评估和应对这一新兴威胁,PolicyLayer研究团队于2026年发布了《MCP服务器目录》,该数据集对1787个公开MCP服务器及其25329个工具进行了风险分类,基于动词分类器与输入模式启发式方法,将每个工具归入读取、写入、执行、破坏性、金融及其他六类风险等级。作为《MCP安全状况——2026年5月》研究报告的核心数据支撑,该目录为学术界与工业界提供了首个公开可用的MCP安全基准,推动了AI代理安全治理从经验判断向数据驱动的转变。
当前挑战
该数据集所面对的挑战涵盖领域问题与构建过程两个层面。在领域层面,MCP生态的开放性使得任意开发者均可发布服务器,缺乏统一的身份验证与权限审计机制,导致AI代理可能被诱导调用具有破坏性或金融风险的工具,而传统安全检测手段难以适应工具接口的动态多变特性。在构建过程中,数据集面临覆盖范围与分类精度的权衡:仅扫描公共注册表(npm、Smithery等),无法覆盖私有或自托管服务器,且部分注册表服务器因依赖故障或认证限制不可达,形成生态规模的下界估计。此外,分类器的置信度分布不均,12.3%的工具分类处于中低置信区间,需下游使用者谨慎解读;而GitHub星标与npm下载量等使用指标为瞬时快照,无法反映长期活跃度,且字段空值率受API限速影响,进一步增加了风险评估的不确定性。
常用场景
经典使用场景
在人工智能与安全交叉领域,Model Context Protocol (MCP) 作为连接大语言模型与外部工具的关键协议,其生态系统的风险态势备受关注。PolicyLayer MCP Server Catalogue 数据集应运而生,为研究者提供了首个系统化、风险分类的公共MCP服务器目录。该数据集的核心使用场景在于,它允许安全研究人员通过语义分析与启发式规则,对1787个服务器暴露的25329个工具进行细粒度的风险评级,涵盖读取、写入、执行、破坏性、金融交易及未分类等六种风险类别。借助该数据集,学者们能够系统性地量化MCP生态中的安全暴露面,为理解大模型工具调用过程中的潜在危害提供实证基础,从而推动AI安全领域的风险评估方法从定性讨论迈向定量分析。
实际应用
在实际部署中,该数据集为大语言模型驱动的智能代理系统提供了关键的准入控制与风险过滤能力。当企业或开发者在生产环境中使用MCP服务器构建AI代理时,可以利用该目录预先排除那些包含高风险(如破坏性或金融类)工具的服务器,避免代理无意中执行删除数据库记录、发起资金转账等不可逆操作。安全运维团队可将其集成到策略引擎中,实现运行时工具的按需授权与动态隔离。此外,该目录每月更新一次的特性,使得风险监控从静态快照演变为持续追踪流程,能够及时发现新增服务器中的潜在威胁,从而在AI代理大规模落地于金融、医疗、政务等敏感领域时,构筑起一道分层、可审计的安全屏障。
衍生相关工作
围绕该数据集,已衍生出多项具有前沿性的研究工作与生态工具。PolicyLayer团队据此发布了《MCP安全状态——2026年5月》研究报告,首次系统揭示了公共MCP生态中高危工具的分布规律,并附带了方法学缺陷分析与已知失败模式文档。在此基础上,社区构建了MCP攻击数据库(policylayer.com/attacks),系统记录了实际发生的MCP安全事件与攻击模式,为红蓝对抗演练提供了真实案例。此外,基于该目录的风险分类信息,研究人员进一步开发了面向MCP的网关、策略引擎与审计日志系统,形成了一套从风险发现到运行时防护的完整保护链。这些衍生工作共同推动着MCP协议从实验性工具迈向具备企业级安全治理能力的基础设施组件。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作