MCPCorpus

Name: MCPCorpus
Creator: 新加坡国立大学
Published: 2025-06-30 10:37:27
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://github.com/Snakinya/MCPCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

MCPCorpus是一个大规模数据集，包含大约14,000个MCP服务器和300个MCP客户端，旨在为模型上下文协议生态系统和安全性分析提供支持。该数据集通过整合来自MCP.so和GitHub的丰富元数据，为每个MCP工件提供了超过20个标准化属性，包括其身份、接口配置、GitHub活动和元数据等。MCPCorpus为研究MCP生态系统的采用趋势、生态系统健康和实现多样性提供了可复现的快照。此外，为了支持数据集的高效探索和利用，还提供了一个轻量级的基于Web的搜索界面。

MCPCorpus is a large-scale dataset comprising approximately 14,000 MCP servers and 300 MCP clients, designed to support the Model Context Protocol (MCP) ecosystem and security analysis. This dataset integrates rich metadata from MCP.so and GitHub, providing more than 20 standardized attributes for each MCP artifact, including its identity, interface configuration, GitHub activity, and associated metadata. MCPCorpus offers a reproducible snapshot for researching adoption trends, ecosystem health, and implementation diversity across the MCP ecosystem. Furthermore, to facilitate efficient exploration and utilization of the dataset, a lightweight web-based search interface is also provided.

提供机构：

新加坡国立大学

创建时间：

2025-06-30

原始信息汇总

MCPCorpus 数据集概述

数据集简介

名称: MCPCorpus: A Large-Scale Evolvable Dataset for Model Context Protocol Ecosystem and Security Analysis
用途: 用于分析模型上下文协议（MCP）生态系统，支持生态系统分析、安全研究和互操作性研究
规模: 包含约14,000个MCP服务器和300个MCP客户端
属性: 每个项目包含20多个标准化元数据属性
数据来源: GitHub、社区中心、包管理器

数据结构

MCPCorpus/ ├── Crawler/ # 数据收集工具 │ ├── Servers/ # 服务器数据 (mcpso_servers_cleaned.json) │ ├── Clients/ # 客户端数据 (mcpso_clients_cleaned.json) │ ├── github_info_collector.py # GitHub元数据收集器 │ └── data_cleaner.py # 数据规范化工具 └── Website/ # 网页搜索界面 ├── server.py # 本地Web服务器 └── index.html # 搜索界面

快速开始

探索数据集

bash cd Website python server.py

打开 http://localhost:8000

编程访问数据

python import json import pandas as pd

加载数据集

with open(Crawler/Servers/mcpso_servers_cleaned.json, r) as f: servers = json.load(f) with open(Crawler/Clients/mcpso_clients_cleaned.json, r) as f: clients = json.load(f)

转换为DataFrame

servers_df = pd.DataFrame(servers) clients_df = pd.DataFrame(clients)

更新数据集（可选）

bash

收集新数据

cd Crawler/Servers && python Server_request.py cd ../Clients && python Client_request.py

添加GitHub元数据

cd .. && python github_info_collector.py --token YOUR_GITHUB_TOKEN

搜集汇总

数据集介绍

构建方式

在快速发展的模型上下文协议（MCP）生态系统中，MCPCorpus的构建采用了系统化的多源数据整合策略。研究团队首先从MCP.so这一核心注册平台获取基础数据，该平台收录了超过14,000个MCP服务器和300个客户端实现。通过开发定制爬虫工具，系统提取了包括工具描述、领域标签、作者信息等在内的结构化元数据。为增强数据的维度，团队进一步关联GitHub仓库，补充了包括星标数、提交频率、贡献者数量等反映项目活跃度的关键指标。数据经过严格的清洗流程，包括无效条目过滤和基于规范化URL的重复项消除，最终形成包含26个标准化字段的统一数据模式。

使用方法

该数据集支持多种研究场景的灵活应用。对于生态系统分析，研究者可通过编程语言、许可证类型等字段进行群体特征统计，追踪技术栈的演进趋势。在安全研究领域，server_command和tools等字段支持静态分析潜在的攻击面暴露问题。数据集配套提供的工具链包含数据同步脚本和Web查询界面，用户可通过GitHub活动指标筛选活跃项目，或根据接口类型定位特定功能模块。典型工作流程包括：使用Python的jsonlines包加载数据集，基于pandas进行多维统计分析，或结合静态分析工具对标注的代码仓库进行深度审计。数据集更新机制确保其能够持续跟踪生态系统的动态演变。

背景与挑战

背景概述

MCPCorpus是由新加坡国立大学的研究团队于2025年创建的大规模数据集，旨在为模型上下文协议（MCP）生态系统提供全面的结构化视图。随着MCP作为连接大型语言模型（LLM）与外部工具的标准接口迅速普及，其生态系统的快速扩张带来了研究上的挑战。MCPCorpus包含约14,000个MCP服务器和300个MCP客户端，每个条目均标注了20多个标准化属性，涵盖身份、接口配置、GitHub活动及元数据等多维度信息。该数据集不仅为研究MCP的采用趋势、生态系统健康及实现多样性提供了基础，还通过自动化工具支持数据的持续更新与同步，显著推动了LLM与工具集成领域的研究进展。

当前挑战

MCPCorpus面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，MCP生态系统的快速发展和多样性导致协议实现不一致、恶意服务器行为及协议合规性弱等问题，亟需通过大规模数据集进行系统性分析。构建过程中的挑战则涉及多源数据整合的复杂性，包括从MCP.so和GitHub等平台爬取、清洗和规范化海量异构数据，确保数据质量与一致性。此外，如何动态更新数据集以反映生态系统的实时变化，以及如何设计高效的工具支持研究人员便捷地探索和利用数据，均是构建过程中需要解决的关键问题。

常用场景

经典使用场景

MCPCorpus作为大规模标准化的模型上下文协议（MCP）生态系统数据集，其经典使用场景聚焦于语言模型与外部工具集成的研究领域。通过整合14K个MCP服务器和300个客户端的多源异构数据，该数据集为分析协议实现多样性、工具互操作性及生态演化趋势提供了结构化基础。典型应用包括跨平台MCP接口的兼容性测试、工具链功能覆盖度统计，以及基于GitHub活跃指标的生态健康度评估，为学术界构建标准化评估基准提供了数据支撑。

解决学术问题

该数据集有效解决了MCP生态研究中数据碎片化与可扩展性不足的核心问题。通过规范化20余项元数据属性（如工具列表、接口配置、代码仓库活动），支持对协议安全性缺陷、实现一致性偏差等关键问题的定量分析。其多维度标签体系（如编程语言分类、应用领域标签）使得研究者能够系统考察技术栈选择与协议采纳度的关联性，填补了工具增强型语言模型在基础设施层实证研究的空白。

实际应用

在工业实践中，MCPCorpus为AI工具链开发者提供了实时的生态全景视图。企业可利用其接口配置字段（server_command, sse_url）进行第三方工具集成测试，安全团队则依据license和has_docker等元数据筛选符合合规要求的组件。微软Playwright-MCP等典型案例表明，该数据集能加速企业级MCP解决方案的漏洞扫描与架构优化，降低工具集成中的协议适配成本。

数据集最近研究