mcp-clients

Hugging Face2025-12-27 更新2025-12-28 收录

下载链接：

https://huggingface.co/datasets/evalstate/mcp-clients

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由MCP服务器在`huggingface.co/mcp`记录的客户端配置信息。数据集中的每条记录包含以下字段：客户端名称（如“Cursor”、“Anthropic/ClaudeAI”、“chat-ui-mcp”）、客户端版本、客户端能力（JSON字符串）以及最后一次出现的时间戳。数据集用于跟踪和分析MCP客户端的配置和使用情况。

创建时间：

2025-12-25

原始信息汇总

MCP Clients 数据集概述

数据集基本信息

数据集名称: MCP Clients Dataset
托管地址: https://huggingface.co/datasets/evalstate/mcp-clients
许可证: MIT
标签: code, agent
数据规模: 1K<n<10K

数据集配置

数据集包含两种配置：

deduplicated (默认配置)
- 数据文件模式: data/deduplicated-*.parquet
- 数据分割: deduplicated
raw
- 数据文件模式: data/raw-*.parquet
- 数据分割: raw

数据集内容

此数据集包含由 huggingface.co/mcp 上的 MCP Server 记录的客户端信息。

数据分割与字段

Raw 分割 (`raw`)

包含原始的 MCP 客户端配置记录，字段如下：

name: MCP 客户端名称（例如 "Cursor", "Anthropic/ClaudeAI", "chat-ui-mcp"）
version: 客户端版本
capabilities: 客户端能力（JSON 字符串）
last_seen: 最近一次看到此客户端的时间戳

Deduplicated 分割 (`deduplicated`)

对客户端按（名称，能力）进行分组去重后的记录，字段如下：

name: MCP 客户端名称（已标准化，移除了 mcp-remote 后缀）
versions: 此客户端观察到的所有版本（逗号分隔）
capabilities: 客户端能力（JSON 字符串）
last_seen: 最近一次看到此客户端的时间戳

数据说明

部分客户端仅发送已配置的能力（例如，fast-agent 仅在配置了 roots 能力时才发送该能力）。
存在一些超出规范但对跟踪有帮助的能力（例如 MCP-UI, Skybridge, Apps SDK）。建议使用 experimental 来声明这些能力以便跟踪。
数据从 evalstate/hf-mcp-logs 数据集中提取，筛选出 initialize 方法调用，并跟踪每个唯一客户端配置的最远 last_seen 时间戳。
deduplicated 分割按（名称，能力）对客户端进行分组，并将所有版本连接在一起。

使用方法

python from datasets import load_dataset

加载原始客户端数据

raw_ds = load_dataset(evalstate/mcp-clients, raw) for client in raw_ds[raw]: print(f"{client[name]} v{client[version]}")

加载去重后的客户端数据

dedup_ds = load_dataset(evalstate/mcp-clients, deduplicated) for client in dedup_ds[deduplicated]: print(f"{client[name]}: {client[versions]}")

数据集更新

数据集通过 Hugging Face Jobs 保持更新：

提取步骤 (raw 分割): bash uv run https://huggingface.co/datasets/evalstate/mcp-clients/resolve/main/extract_mcp_clients.py --push-to-hub --split raw
去重步骤 (deduplicated 分割): bash uv run https://huggingface.co/datasets/evalstate/mcp-clients/resolve/main/deduplicate_clients.py --push-to-hub

或运行完整流水线： bash uv run https://huggingface.co/datasets/evalstate/mcp-clients/resolve/main/pipeline.py

搜集汇总

数据集介绍

构建方式

在模型上下文协议（MCP）生态系统的演进中，数据集的构建源于对服务器日志的系统性提取与处理。原始数据源自`evalstate/hf-mcp-logs`数据集，通过筛选其中的`initialize`方法调用，捕获了每个独立客户端配置的最新交互时间戳。随后，数据被组织为两个版本：原始版本保留了每次观测的完整记录，而去重版本则依据客户端名称与能力配置进行聚合，将同一客户端的多个版本信息合并，从而形成结构清晰、便于分析的数据切片。

特点

该数据集的核心特征在于其双重视角的数据组织。原始切片忠实记录了每次客户端初始化的瞬时状态，包括具体版本与完整能力声明，为时序分析提供了基础。而去重切片通过归一化处理，移除了名称后缀并整合了所有观测到的版本，突出了客户端在不同时期的配置稳定性与演变轨迹。特别值得注意的是，数据集涵盖了部分超出规范但具有实际意义的能力字段，如MCP-UI与Skybridge，这为追踪实验性功能在生态系统中的渗透提供了独特窗口。

使用方法

利用该数据集进行实证研究时，研究者可通过Hugging Face的`datasets`库便捷加载。根据分析目标，可选择加载原始切片以探究客户端版本的瞬时分布与精确能力声明，或加载去重切片以分析客户端群体的长期配置模式与版本演进。数据以Parquet格式存储，支持高效的大规模读取与处理。典型应用场景包括监测MCP生态中客户端的采用趋势、能力支持的多样性分析，以及为协议扩展与工具开发提供实证依据。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，模型上下文协议（MCP）作为一种新兴的标准化接口，旨在促进大型语言模型与外部工具及数据源的高效、安全交互。MCP Clients 数据集由 evalstate 团队于 Hugging Face 平台创建并维护，其核心研究问题聚焦于系统性地追踪、记录与分析实际部署中各类 MCP 客户端的配置、能力与演化模式。该数据集通过捕捉不同客户端（如 Cursor、ClaudeAI 等）的初始化信息，为研究社区提供了理解 MCP 生态系统采纳情况、能力分布及技术演进的宝贵实证基础，对推动智能体架构标准化、互操作性评估及工具生态优化具有显著影响力。

当前挑战

该数据集致力于解决 MCP 客户端生态系统的动态监测与标准化评估挑战，具体涉及客户端能力多样性解析、版本碎片化治理以及非规范能力的兼容性处理。在构建过程中，主要挑战源于原始日志数据的异构性与噪声过滤，例如需精准识别并提取 `initialize` 方法调用中的有效配置，同时处理客户端命名不一致、能力字段缺失或非标准扩展（如 MCP-UI、Skybridge 等）带来的数据清洗复杂性。此外，设计去重策略以平衡客户端唯一性识别与版本历史保留，亦对数据集的准确性与实用性构成关键考验。

常用场景

经典使用场景

在模型上下文协议（MCP）生态系统的研究中，mcp-clients数据集为分析客户端多样性及其功能演进提供了关键支持。该数据集通过记录不同MCP客户端的名称、版本、能力配置及最近活跃时间，使研究者能够追踪客户端工具的采用模式与兼容性变化。经典使用场景包括对客户端能力分布的统计建模，以及基于时间序列分析客户端版本的迭代趋势，从而揭示MCP协议在实际部署中的演化动态。

解决学术问题

该数据集有效解决了MCP领域内客户端行为标准化与追踪的学术挑战。通过提供去重和原始两种数据切分，它支持对客户端配置的唯一性识别与版本聚合分析，帮助研究者量化客户端能力的采纳率，并识别非规范能力的实验性扩展。这为协议兼容性评估、客户端生态系统的健壮性研究提供了实证基础，推动了MCP标准化进程的学术讨论。

衍生相关工作

围绕mcp-clients数据集，已衍生出多项关注MCP生态系统分析的研究工作。例如，基于客户端能力数据的聚类研究揭示了工具的功能分组模式；结合时间戳的版本演进分析则探讨了客户端更新的频率与驱动因素。这些工作进一步拓展了协议采用度量的方法论，并为MCP协议的迭代优化提供了社区反馈的量化视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

mcp-clients

MCP Clients 数据集概述

数据集基本信息

数据集配置

数据集内容

数据分割与字段

Raw 分割 (raw)

Deduplicated 分割 (deduplicated)

数据说明

使用方法

加载原始客户端数据

加载去重后的客户端数据

数据集更新

Raw 分割 (`raw`)

Deduplicated 分割 (`deduplicated`)