five

mcp-clients

收藏
Hugging Face2025-12-27 更新2025-12-28 收录
下载链接:
https://huggingface.co/datasets/evalstate/mcp-clients
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由MCP服务器在`huggingface.co/mcp`记录的客户端配置信息。数据集中的每条记录包含以下字段:客户端名称(如“Cursor”、“Anthropic/ClaudeAI”、“chat-ui-mcp”)、客户端版本、客户端能力(JSON字符串)以及最后一次出现的时间戳。数据集用于跟踪和分析MCP客户端的配置和使用情况。
创建时间:
2025-12-25
原始信息汇总

MCP Clients 数据集概述

数据集基本信息

  • 数据集名称: MCP Clients Dataset
  • 托管地址: https://huggingface.co/datasets/evalstate/mcp-clients
  • 许可证: MIT
  • 标签: code, agent
  • 数据规模: 1K<n<10K

数据集配置

数据集包含两种配置:

  1. deduplicated (默认配置)
    • 数据文件模式: data/deduplicated-*.parquet
    • 数据分割: deduplicated
  2. raw
    • 数据文件模式: data/raw-*.parquet
    • 数据分割: raw

数据集内容

此数据集包含由 huggingface.co/mcp 上的 MCP Server 记录的客户端信息。

数据分割与字段

Raw 分割 (raw)

包含原始的 MCP 客户端配置记录,字段如下:

  • name: MCP 客户端名称(例如 "Cursor", "Anthropic/ClaudeAI", "chat-ui-mcp")
  • version: 客户端版本
  • capabilities: 客户端能力(JSON 字符串)
  • last_seen: 最近一次看到此客户端的时间戳

Deduplicated 分割 (deduplicated)

对客户端按(名称,能力)进行分组去重后的记录,字段如下:

  • name: MCP 客户端名称(已标准化,移除了 mcp-remote 后缀)
  • versions: 此客户端观察到的所有版本(逗号分隔)
  • capabilities: 客户端能力(JSON 字符串)
  • last_seen: 最近一次看到此客户端的时间戳

数据说明

  • 部分客户端仅发送已配置的能力(例如,fast-agent 仅在配置了 roots 能力时才发送该能力)。
  • 存在一些超出规范但对跟踪有帮助的能力(例如 MCP-UI, Skybridge, Apps SDK)。建议使用 experimental 来声明这些能力以便跟踪。
  • 数据从 evalstate/hf-mcp-logs 数据集中提取,筛选出 initialize 方法调用,并跟踪每个唯一客户端配置的最远 last_seen 时间戳。
  • deduplicated 分割按(名称,能力)对客户端进行分组,并将所有版本连接在一起。

使用方法

python from datasets import load_dataset

加载原始客户端数据

raw_ds = load_dataset(evalstate/mcp-clients, raw) for client in raw_ds[raw]: print(f"{client[name]} v{client[version]}")

加载去重后的客户端数据

dedup_ds = load_dataset(evalstate/mcp-clients, deduplicated) for client in dedup_ds[deduplicated]: print(f"{client[name]}: {client[versions]}")

数据集更新

数据集通过 Hugging Face Jobs 保持更新:

  1. 提取步骤 (raw 分割): bash uv run https://huggingface.co/datasets/evalstate/mcp-clients/resolve/main/extract_mcp_clients.py --push-to-hub --split raw

  2. 去重步骤 (deduplicated 分割): bash uv run https://huggingface.co/datasets/evalstate/mcp-clients/resolve/main/deduplicate_clients.py --push-to-hub

或运行完整流水线: bash uv run https://huggingface.co/datasets/evalstate/mcp-clients/resolve/main/pipeline.py

搜集汇总
数据集介绍
main_image_url
构建方式
在模型上下文协议(MCP)生态系统的演进中,数据集的构建源于对服务器日志的系统性提取与处理。原始数据源自`evalstate/hf-mcp-logs`数据集,通过筛选其中的`initialize`方法调用,捕获了每个独立客户端配置的最新交互时间戳。随后,数据被组织为两个版本:原始版本保留了每次观测的完整记录,而去重版本则依据客户端名称与能力配置进行聚合,将同一客户端的多个版本信息合并,从而形成结构清晰、便于分析的数据切片。
特点
该数据集的核心特征在于其双重视角的数据组织。原始切片忠实记录了每次客户端初始化的瞬时状态,包括具体版本与完整能力声明,为时序分析提供了基础。而去重切片通过归一化处理,移除了名称后缀并整合了所有观测到的版本,突出了客户端在不同时期的配置稳定性与演变轨迹。特别值得注意的是,数据集涵盖了部分超出规范但具有实际意义的能力字段,如MCP-UI与Skybridge,这为追踪实验性功能在生态系统中的渗透提供了独特窗口。
使用方法
利用该数据集进行实证研究时,研究者可通过Hugging Face的`datasets`库便捷加载。根据分析目标,可选择加载原始切片以探究客户端版本的瞬时分布与精确能力声明,或加载去重切片以分析客户端群体的长期配置模式与版本演进。数据以Parquet格式存储,支持高效的大规模读取与处理。典型应用场景包括监测MCP生态中客户端的采用趋势、能力支持的多样性分析,以及为协议扩展与工具开发提供实证依据。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,模型上下文协议(MCP)作为一种新兴的标准化接口,旨在促进大型语言模型与外部工具及数据源的高效、安全交互。MCP Clients 数据集由 evalstate 团队于 Hugging Face 平台创建并维护,其核心研究问题聚焦于系统性地追踪、记录与分析实际部署中各类 MCP 客户端的配置、能力与演化模式。该数据集通过捕捉不同客户端(如 Cursor、ClaudeAI 等)的初始化信息,为研究社区提供了理解 MCP 生态系统采纳情况、能力分布及技术演进的宝贵实证基础,对推动智能体架构标准化、互操作性评估及工具生态优化具有显著影响力。
当前挑战
该数据集致力于解决 MCP 客户端生态系统的动态监测与标准化评估挑战,具体涉及客户端能力多样性解析、版本碎片化治理以及非规范能力的兼容性处理。在构建过程中,主要挑战源于原始日志数据的异构性与噪声过滤,例如需精准识别并提取 `initialize` 方法调用中的有效配置,同时处理客户端命名不一致、能力字段缺失或非标准扩展(如 MCP-UI、Skybridge 等)带来的数据清洗复杂性。此外,设计去重策略以平衡客户端唯一性识别与版本历史保留,亦对数据集的准确性与实用性构成关键考验。
常用场景
经典使用场景
在模型上下文协议(MCP)生态系统的研究中,mcp-clients数据集为分析客户端多样性及其功能演进提供了关键支持。该数据集通过记录不同MCP客户端的名称、版本、能力配置及最近活跃时间,使研究者能够追踪客户端工具的采用模式与兼容性变化。经典使用场景包括对客户端能力分布的统计建模,以及基于时间序列分析客户端版本的迭代趋势,从而揭示MCP协议在实际部署中的演化动态。
解决学术问题
该数据集有效解决了MCP领域内客户端行为标准化与追踪的学术挑战。通过提供去重和原始两种数据切分,它支持对客户端配置的唯一性识别与版本聚合分析,帮助研究者量化客户端能力的采纳率,并识别非规范能力的实验性扩展。这为协议兼容性评估、客户端生态系统的健壮性研究提供了实证基础,推动了MCP标准化进程的学术讨论。
衍生相关工作
围绕mcp-clients数据集,已衍生出多项关注MCP生态系统分析的研究工作。例如,基于客户端能力数据的聚类研究揭示了工具的功能分组模式;结合时间戳的版本演进分析则探讨了客户端更新的频率与驱动因素。这些工作进一步拓展了协议采用度量的方法论,并为MCP协议的迭代优化提供了社区反馈的量化视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作