mcp-quality-index

Hugging Face2026-03-31 更新2026-04-01 收录

下载链接：

https://huggingface.co/datasets/grahamrowe82/mcp-quality-index

下载链接

链接失效反馈

官方服务：

资源简介：

MCP质量指数数据集是一个每日更新的开源数据集，包含12,000多个MCP（模型上下文协议）服务器仓库的质量评分。该数据集旨在解决当前MCP注册表缺乏维护状态、采用情况和依赖安全性信息的问题。数据集通过四个维度对GitHub上的MCP域仓库进行评分：维护性（提交活动和推送时效）、采用度（星标、下载量和反向依赖）、成熟度（许可证、发布包和仓库年龄）以及社区活跃度（分叉和分叉-星标比）。每个仓库会获得一个0-100的综合质量分数，并对应到不同等级：已验证（70+）、已建立（50-69）、新兴（30-49）和实验性（<30）。数据集包含三个主要文件：mcp-scores.json（12,653条记录，含质量分数和风险标志）、mcp-repos.json（12,512条记录，含GitHub和包指标）和projects.json（441条记录，含跟踪的AI项目及其吸引力分数和速度指标）。数据由PT-Edge项目生成，该项目跟踪了GitHub、PyPI、npm、Docker Hub、HuggingFace和Hacker News上的166,000多个AI仓库，每日约在UTC时间06:00更新。

创建时间：

2026-03-27

原始信息汇总

MCP Quality Index 数据集概述

数据集基本信息

许可证：cc-by-4.0
任务类别：文本分类、特征提取
标签：mcp、model-context-protocol、open-source、quality-scores、developer-tools、ai-ecosystem
数据集名称：MCP Quality Index
数据规模：10K<n<100K
源数据集：original

数据集描述

该数据集为超过12,000个MCP（模型上下文协议）服务器仓库提供每日更新的质量评分。当前所有的MCP注册表均为扁平目录，无法告知用户某个服务器是否被维护、被采纳或可安全依赖。本数据集从四个维度对GitHub上所有MCP领域的仓库进行评分：维护性、采纳度、成熟度和社区活跃度。

文件内容

文件	记录数	描述
`mcp-scores.json`	12,653	包含组件细分和风险标志的质量评分
`mcp-repos.json`	12,512	所有活跃的MCP仓库，包含GitHub和软件包指标
`projects.json`	441	被追踪的AI项目，包含吸引力评分和活跃度指标

评分模型

每个仓库会获得一个由四个等权重组件构成的综合质量评分（0-100分）：

维护性 (0-25分)：提交活跃度 + 最近推送时间
采纳度 (0-25分)：星标数 + 下载量 + 反向依赖数
成熟度 (0-25分)：许可证 + 已发布的软件包 + 仓库年龄
社区活跃度 (0-25分)：复刻数 + 复刻与星标比率

评分对应以下等级：已验证 (70+分)、已确立 (50-69分)、新兴 (30-49分)、实验性 (<30分)。

完整方法论文档：https://github.com/grahamrowe82/mcp-quality-index/blob/main/METHODOLOGY.md

数据来源

数据由 PT-Edge 生成，该项目追踪了GitHub、PyPI、npm、Docker Hub、HuggingFace和Hacker News上超过166,000个AI仓库。

更新频率

每日更新，时间约为UTC时间06:00。

引用信息

bibtex @misc{mcp-quality-index-2026, title={MCP Quality Index}, author={PT-Edge}, year={2026}, url={https://github.com/grahamrowe82/mcp-quality-index} }

搜集汇总

数据集介绍

构建方式

在开源AI生态系统中，评估模型上下文协议（MCP）服务器的质量一直缺乏系统化标准。MCP Quality Index数据集通过自动化流程构建，每日从GitHub、PyPI、npm、Docker Hub、HuggingFace及Hacker News等平台采集超过16.6万个AI仓库的元数据，并筛选出超过1.2万个MCP相关仓库。每个仓库依据维护性、采用度、成熟度及社区参与度四个维度进行量化评分，各维度权重均衡，最终生成0至100的复合质量分数，同时标注风险标志与详细指标分解，确保评估的全面性与时效性。

特点

该数据集的核心特点在于其多维度的质量评估体系，将抽象的仓库质量转化为可量化的分数与等级。评分模型融合了代码提交活跃度、星标数量、下载量、许可证类型及仓库年龄等关键指标，形成维护、采用、成熟与社区四大支柱。数据每日更新，覆盖超过1.2万个MCP服务器仓库，并附带441个AI项目的追踪记录，不仅提供整体质量分数，还包含组件细分与风险标识，支持用户深入分析仓库的稳定性与依赖安全性。

使用方法

研究人员与开发者可利用该数据集进行MCP服务器的质量筛选与依赖评估。通过加载mcp-scores.json文件，用户可依据质量分数（如70分以上为“Verified”等级）快速识别高维护性、高采用度的服务器，降低集成风险。结合mcp-repos.json中的GitHub与软件包指标，可进一步分析仓库的活跃趋势与社区健康度。对于生态研究，projects.json提供了AI项目的动态追踪，支持宏观趋势分析与竞争力评估，助力开源工具的选择与优化。

背景与挑战

背景概述

随着开源人工智能生态系统的蓬勃发展，模型上下文协议（Model Context Protocol，简称MCP）作为连接大型语言模型与外部工具的关键接口标准，其相关服务器的数量与复杂性急剧增长。为应对这一趋势，PT-Edge研究机构于2026年推出了MCP Quality Index数据集。该数据集旨在系统性地评估GitHub平台上超过12,000个MCP服务器仓库的质量，通过维护度、采用度、成熟度及社区活跃度四个核心维度构建综合评分体系，从而填补了现有注册目录仅提供扁平化列表、缺乏质量洞察的空白。其每日更新的机制为开发者、研究者及企业用户提供了动态、可靠的项目质量参考，对促进MCP生态的健康发展与资源优化配置具有显著影响力。

当前挑战

该数据集致力于解决开源AI工具生态中项目质量评估与依赖风险管理的核心挑战。在领域层面，主要挑战在于如何从海量、异构的仓库数据中，客观量化一个MCP服务器的可靠性、可维护性与社区健康度，以帮助用户规避采用低质量或已废弃项目所带来的技术风险。在构建过程中，挑战则具体体现在多源数据（如GitHub、PyPI、npm等平台）的实时采集与同步、评估指标（如提交活跃度、星标数、依赖关系等）的标准化定义与加权融合，以及确保每日更新流程的自动化与数据一致性，从而在动态变化的开源环境中维持评估结果的时效性与准确性。

常用场景

经典使用场景

在开源AI生态系统中，开发者常常面临选择可靠MCP服务器时的信息不对称问题。MCP Quality Index数据集通过每日更新的质量评分，为研究人员和工程师提供了一个标准化的评估框架，用于筛选和维护高质量的MCP服务器资源。该数据集广泛应用于模型上下文协议（MCP）的依赖管理场景，帮助用户基于维护、采纳、成熟度和社区四个维度，快速识别已验证或新兴的服务器项目，从而优化工具链的稳定性和可持续性。

实际应用

在实际开发环境中，MCP Quality Index被集成到自动化工作流中，辅助团队进行技术选型和风险监控。例如，企业可依据评分阈值自动过滤低质量服务器，降低集成故障率；平台开发者则利用其追踪项目趋势，优化资源推荐系统。该数据集还服务于AI工具市场的质量认证，为开发者提供透明的决策依据，从而提升整个MCP生态的可靠性和协作效率。

衍生相关工作

基于该数据集衍生的经典工作包括PT-Edge等大规模AI仓库追踪系统，它们扩展了多平台仓库的监控能力。此外，研究社区利用其评分模型开发了预测性分析工具，如项目生命周期预测和风险预警框架。这些工作进一步深化了开源质量度量的方法论，并促进了跨生态系统的标准化评估协议的形成，为AI基础设施的治理提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集