MCPCorpus
收藏MCPCorpus 数据集概述
数据集简介
- 名称: MCPCorpus: A Large-Scale Evolvable Dataset for Model Context Protocol Ecosystem and Security Analysis
- 用途: 用于分析模型上下文协议(MCP)生态系统,支持生态系统分析、安全研究和互操作性研究
- 规模: 包含约14,000个MCP服务器和300个MCP客户端
- 属性: 每个项目包含20多个标准化元数据属性
- 数据来源: GitHub、社区中心、包管理器
数据结构
MCPCorpus/ ├── Crawler/ # 数据收集工具 │ ├── Servers/ # 服务器数据 (mcpso_servers_cleaned.json) │ ├── Clients/ # 客户端数据 (mcpso_clients_cleaned.json) │ ├── github_info_collector.py # GitHub元数据收集器 │ └── data_cleaner.py # 数据规范化工具 └── Website/ # 网页搜索界面 ├── server.py # 本地Web服务器 └── index.html # 搜索界面
快速开始
探索数据集
bash cd Website python server.py
打开 http://localhost:8000
编程访问数据
python import json import pandas as pd
加载数据集
with open(Crawler/Servers/mcpso_servers_cleaned.json, r) as f: servers = json.load(f) with open(Crawler/Clients/mcpso_clients_cleaned.json, r) as f: clients = json.load(f)
转换为DataFrame
servers_df = pd.DataFrame(servers) clients_df = pd.DataFrame(clients)
更新数据集(可选)
bash
收集新数据
cd Crawler/Servers && python Server_request.py cd ../Clients && python Client_request.py
添加GitHub元数据
cd .. && python github_info_collector.py --token YOUR_GITHUB_TOKEN

- 1A Large-Scale Evolvable Dataset for Model Context Protocol Ecosystem and Security Analysis新加坡国立大学 · 2025年



