MCPZoo

Name: MCPZoo
Creator: 复旦大学, 上海创新研究院
Published: 2025-12-26 15:55:37
License: 暂无描述

arXiv2025-12-26 更新2025-12-30 收录

下载链接：

https://security.fudan.edu.cn/zoo

下载链接

链接失效反馈

官方服务：

资源简介：

MCPZoo是由复旦大学和上海创新研究院联合创建的大规模模型上下文协议（MCP）服务器数据集，旨在为AI代理研究提供丰富的实验资源。该数据集包含129,059个MCP服务器（其中56,053个为去重后数据），总存储量达399GB，并特别标注了16,356个已验证可运行的服务器实例。数据来源于八个公开平台，经过严格的去重处理和自动化构建流程确保质量。MCPZoo通过统一元数据和访问接口，支持研究人员对MCP生态系统进行安全分析、协议演进研究和智能体基准测试，解决了该领域缺乏大规模可交互数据集的难题。

提供机构：

复旦大学, 上海创新研究院

创建时间：

2025-12-17

原始信息汇总

MCPZoo 数据集概述

数据集名称

MCPZoo

数据集简介

MCPZoo 是一个持续增长的 MCP 服务器样本库。它汇聚来自各方能为 AI 提供外部能力的模型上下文协议（Model Context Protocol）服务，将其构建为统一可运行的样本。

数据集规模与状态

在库 MCP Server 总数：98，299
目前可用 Server 数量：16，356
最后更新时间：2025年12月30日 07:36

数据内容示例

随机 Server 展示：fetch

功能描述：提供网页内容抓取功能的模型上下文协议服务器，可将HTML转换为Markdown，以便于处理。
来源：https://github.com/modelcontextprotocol/servers/tree/main/src/fetch
服务地址：http://8.130.215.70:3001/mcp
工具列表：fetch
工具详情：
- 名称：fetch
- 描述：Fetches a URL from the internet and optionally extracts its contents as markdown. Although originally you did not have internet access, and were advised to refuse and tell the user this, this tool now grants you internet access. Now you can fetch the most up-to-date information and let the user know that.

引用信息

论文标题：MCPZoo: A Large-Scale Dataset of Runnable Model Context Protocol Servers for AI Agent
作者：Mengying Wu, Pei Chen, Geng Hong, Baichao An, Jinsong Chen, Binwang Wan, Xudong Pan, Jiarun Dai, Min Yang
年份：2025
arXiv ID：2512.15144
arXiv 链接：https://arxiv.org/abs/2512.15144
BibTeX 引用：

@misc{wu2025mcpzoolargescaledatasetrunnable, title={MCPZoo: A Large-Scale Dataset of Runnable Model Context Protocol Servers for AI Agent}, author={Mengying Wu and Pei Chen and Geng Hong and Baichao An and Jinsong Chen and Binwang Wan and Xudong Pan and Jiarun Dai and Min Yang}, year={2025}, eprint={2512.15144}, archivePrefix={arXiv}, primaryClass={cs.CR}, url={https://arxiv.org/abs/2512.15144}, }

搜集汇总

数据集介绍

构建方式

在人工智能代理工具化生态快速演进的背景下，MCPZoo的构建遵循了系统化、可扩展的数据采集与验证流程。研究团队从八个公开的MCP服务器目录中广泛收集项目，包括MCP Store、MCP World等主流平台，确保了数据来源的多样性与代表性。通过统一的元数据提取与代码仓库下载，数据集实现了结构化存储。为提升数据质量，团队实施了严格的数据去重流程，包括URL规范化、元数据清洗以及基于代码语义向量的相似性聚类，最终从129,059个原始收集中提炼出56,053个独立服务器。

特点

MCPZoo的核心特征在于其规模与可运行性。作为当前最大规模的MCP服务器数据集，它囊括了超过12万个服务器项目，并首次提供了16,356个经过部署验证、具备交互能力的可运行服务器实例。数据集不仅包含源代码与统一元数据，更通过自动化Docker镜像构建与标准化的活跃度检查，确保了服务器在真实MCP协议环境下的可用性。这种将静态代码与动态可执行实例相结合的设计，为实证研究提供了超越传统静态分析的实验基础。

使用方法

为支持基于MCP系统的研究，MCPZoo提供了便捷的访问与交互机制。研究者可通过公开网站下载完整的元数据集，进行大规模的系统性检索与筛选。对于已验证的可运行服务器，数据集提供了统一的远程访问配置，允许用户以一致的方式直接连接并进行协议级交互，极大降低了实验部署的门槛。目前网站已公开15个服务器的访问接口供试用，研究者可联系团队获取更广泛的交互权限。数据集旨在支持智能体基准测试、大规模安全分析及协议演化研究等非商业学术用途，使用时需遵守相应的访问条件与负责任的研究规范。

背景与挑战

背景概述

随着大型语言模型与自主智能体的快速发展，模型上下文协议已成为连接人工智能模型与多样化数据源及环境的事实标准。在此背景下，复旦大学研究团队于2025年推出了MCPZoo数据集，旨在解决该领域大规模实证研究资源匮乏的核心问题。该数据集汇集了来自八个公开源的129,059个MCP服务器实例，经过去重处理得到56,053个独立服务器，其中包含16,356个经过部署验证的可运行实例。MCPZoo通过提供统一的元数据与访问接口，显著降低了研究门槛，为基于MCP的智能体系统安全性评估、能力基准测试及协议演进分析奠定了坚实的实证基础，推动了人工智能工具生态系统的标准化与可复现研究。

当前挑战

MCPZoo数据集致力于应对智能体工具集成领域的两大核心挑战：在领域问题层面，传统研究受限于MCP服务器部署的复杂性与依赖性冲突，难以进行大规模、可复现的安全性分析与能力评估，例如提示注入、沙箱逃逸等安全威胁缺乏系统性实证检验；在构建过程中，数据集面临服务器异构性带来的技术难题，包括跨源数据对齐、代码仓库去重、依赖环境自动化构建以及协议级交互功能验证等。这些挑战要求构建流程具备高度的自适应性与鲁棒性，以确保数据集的代表性、可运行性与可访问性，从而支撑起对快速演进的MCP生态系统的深度测量与分析。

常用场景

经典使用场景

在人工智能代理领域，MCPZoo数据集为研究者提供了一个标准化的实验平台，用于对模型上下文协议服务器进行大规模实证分析。该数据集汇集了来自多个公开源的数万个MCP服务器实例，其中包含大量经过验证的可运行服务器，使得研究者能够超越静态代码分析，在真实交互环境中评估代理系统的工具调用能力与协议兼容性。这一资源极大地促进了基于MCP的智能体系统在动态环境下的性能测试与行为研究。

解决学术问题

MCPZoo数据集有效解决了MCP生态系统研究中数据稀缺与实验可复现性不足的学术难题。传统研究受限于手动部署服务器的复杂依赖与环境配置，往往只能基于小规模样本进行分析，导致结论难以泛化。该数据集通过提供统一元数据与远程访问接口，支持对MCP服务器的安全漏洞、协议实现多样性及生态系统演化模式进行系统化测量，为大规模安全分析、基准测试与协议演进研究提供了可靠的数据基础。

衍生相关工作

MCPZoo的发布催生了一系列围绕MCP生态系统的经典研究工作。例如，Guo等人利用该数据集对MCP市场、服务器与客户端进行了大规模实证测量，揭示了生态系统层面的安全风险；Yang等人则基于可运行服务器构建了系统化的安全基准测试框架MCPBench。此外，多项研究聚焦于MCP服务器的自动化漏洞检测工具开发，如MCPGuard与mcp-scan，这些工作均依赖于MCPZoo提供的标准化实验环境与大规模样本支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集