five

mcp-quality-index

收藏
Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/grahamrowe82/mcp-quality-index
下载链接
链接失效反馈
官方服务:
资源简介:
MCP质量指数数据集是一个每日更新的开源数据集,包含12,000多个MCP(模型上下文协议)服务器仓库的质量评分。该数据集旨在解决当前MCP注册表缺乏维护状态、采用情况和依赖安全性信息的问题。数据集通过四个维度对GitHub上的MCP域仓库进行评分:维护性(提交活动和推送时效)、采用度(星标、下载量和反向依赖)、成熟度(许可证、发布包和仓库年龄)以及社区活跃度(分叉和分叉-星标比)。每个仓库会获得一个0-100的综合质量分数,并对应到不同等级:已验证(70+)、已建立(50-69)、新兴(30-49)和实验性(<30)。数据集包含三个主要文件:mcp-scores.json(12,653条记录,含质量分数和风险标志)、mcp-repos.json(12,512条记录,含GitHub和包指标)和projects.json(441条记录,含跟踪的AI项目及其吸引力分数和速度指标)。数据由PT-Edge项目生成,该项目跟踪了GitHub、PyPI、npm、Docker Hub、HuggingFace和Hacker News上的166,000多个AI仓库,每日约在UTC时间06:00更新。
创建时间:
2026-03-27
原始信息汇总

MCP Quality Index 数据集概述

数据集基本信息

  • 许可证:cc-by-4.0
  • 任务类别:文本分类、特征提取
  • 标签:mcp、model-context-protocol、open-source、quality-scores、developer-tools、ai-ecosystem
  • 数据集名称:MCP Quality Index
  • 数据规模:10K<n<100K
  • 源数据集:original

数据集描述

该数据集为超过12,000个MCP(模型上下文协议)服务器仓库提供每日更新的质量评分。当前所有的MCP注册表均为扁平目录,无法告知用户某个服务器是否被维护、被采纳或可安全依赖。本数据集从四个维度对GitHub上所有MCP领域的仓库进行评分:维护性、采纳度、成熟度和社区活跃度。

文件内容

文件 记录数 描述
mcp-scores.json 12,653 包含组件细分和风险标志的质量评分
mcp-repos.json 12,512 所有活跃的MCP仓库,包含GitHub和软件包指标
projects.json 441 被追踪的AI项目,包含吸引力评分和活跃度指标

评分模型

每个仓库会获得一个由四个等权重组件构成的综合质量评分(0-100分):

  • 维护性 (0-25分):提交活跃度 + 最近推送时间
  • 采纳度 (0-25分):星标数 + 下载量 + 反向依赖数
  • 成熟度 (0-25分):许可证 + 已发布的软件包 + 仓库年龄
  • 社区活跃度 (0-25分):复刻数 + 复刻与星标比率

评分对应以下等级:已验证 (70+分)、已确立 (50-69分)、新兴 (30-49分)、实验性 (<30分)。

完整方法论文档:https://github.com/grahamrowe82/mcp-quality-index/blob/main/METHODOLOGY.md

数据来源

数据由 PT-Edge 生成,该项目追踪了GitHub、PyPI、npm、Docker Hub、HuggingFace和Hacker News上超过166,000个AI仓库。

更新频率

每日更新,时间约为UTC时间06:00。

引用信息

bibtex @misc{mcp-quality-index-2026, title={MCP Quality Index}, author={PT-Edge}, year={2026}, url={https://github.com/grahamrowe82/mcp-quality-index} }

搜集汇总
数据集介绍
main_image_url
构建方式
在开源AI生态系统中,评估模型上下文协议(MCP)服务器的质量一直缺乏系统化标准。MCP Quality Index数据集通过自动化流程构建,每日从GitHub、PyPI、npm、Docker Hub、HuggingFace及Hacker News等平台采集超过16.6万个AI仓库的元数据,并筛选出超过1.2万个MCP相关仓库。每个仓库依据维护性、采用度、成熟度及社区参与度四个维度进行量化评分,各维度权重均衡,最终生成0至100的复合质量分数,同时标注风险标志与详细指标分解,确保评估的全面性与时效性。
特点
该数据集的核心特点在于其多维度的质量评估体系,将抽象的仓库质量转化为可量化的分数与等级。评分模型融合了代码提交活跃度、星标数量、下载量、许可证类型及仓库年龄等关键指标,形成维护、采用、成熟与社区四大支柱。数据每日更新,覆盖超过1.2万个MCP服务器仓库,并附带441个AI项目的追踪记录,不仅提供整体质量分数,还包含组件细分与风险标识,支持用户深入分析仓库的稳定性与依赖安全性。
使用方法
研究人员与开发者可利用该数据集进行MCP服务器的质量筛选与依赖评估。通过加载mcp-scores.json文件,用户可依据质量分数(如70分以上为“Verified”等级)快速识别高维护性、高采用度的服务器,降低集成风险。结合mcp-repos.json中的GitHub与软件包指标,可进一步分析仓库的活跃趋势与社区健康度。对于生态研究,projects.json提供了AI项目的动态追踪,支持宏观趋势分析与竞争力评估,助力开源工具的选择与优化。
背景与挑战
背景概述
随着开源人工智能生态系统的蓬勃发展,模型上下文协议(Model Context Protocol,简称MCP)作为连接大型语言模型与外部工具的关键接口标准,其相关服务器的数量与复杂性急剧增长。为应对这一趋势,PT-Edge研究机构于2026年推出了MCP Quality Index数据集。该数据集旨在系统性地评估GitHub平台上超过12,000个MCP服务器仓库的质量,通过维护度、采用度、成熟度及社区活跃度四个核心维度构建综合评分体系,从而填补了现有注册目录仅提供扁平化列表、缺乏质量洞察的空白。其每日更新的机制为开发者、研究者及企业用户提供了动态、可靠的项目质量参考,对促进MCP生态的健康发展与资源优化配置具有显著影响力。
当前挑战
该数据集致力于解决开源AI工具生态中项目质量评估与依赖风险管理的核心挑战。在领域层面,主要挑战在于如何从海量、异构的仓库数据中,客观量化一个MCP服务器的可靠性、可维护性与社区健康度,以帮助用户规避采用低质量或已废弃项目所带来的技术风险。在构建过程中,挑战则具体体现在多源数据(如GitHub、PyPI、npm等平台)的实时采集与同步、评估指标(如提交活跃度、星标数、依赖关系等)的标准化定义与加权融合,以及确保每日更新流程的自动化与数据一致性,从而在动态变化的开源环境中维持评估结果的时效性与准确性。
常用场景
经典使用场景
在开源AI生态系统中,开发者常常面临选择可靠MCP服务器时的信息不对称问题。MCP Quality Index数据集通过每日更新的质量评分,为研究人员和工程师提供了一个标准化的评估框架,用于筛选和维护高质量的MCP服务器资源。该数据集广泛应用于模型上下文协议(MCP)的依赖管理场景,帮助用户基于维护、采纳、成熟度和社区四个维度,快速识别已验证或新兴的服务器项目,从而优化工具链的稳定性和可持续性。
实际应用
在实际开发环境中,MCP Quality Index被集成到自动化工作流中,辅助团队进行技术选型和风险监控。例如,企业可依据评分阈值自动过滤低质量服务器,降低集成故障率;平台开发者则利用其追踪项目趋势,优化资源推荐系统。该数据集还服务于AI工具市场的质量认证,为开发者提供透明的决策依据,从而提升整个MCP生态的可靠性和协作效率。
衍生相关工作
基于该数据集衍生的经典工作包括PT-Edge等大规模AI仓库追踪系统,它们扩展了多平台仓库的监控能力。此外,研究社区利用其评分模型开发了预测性分析工具,如项目生命周期预测和风险预警框架。这些工作进一步深化了开源质量度量的方法论,并促进了跨生态系统的标准化评估协议的形成,为AI基础设施的治理提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作