MCP-Atlas

github2025-12-19 更新2025-12-22 收录

下载链接：

https://github.com/scaleapi/mcp-atlas

下载链接

链接失效反馈

官方服务：

资源简介：

MCP-Atlas是一个用于评估AI模型在36个模型上下文协议（MCP）服务器上工具使用能力的综合基准。它提供了一个标准化环境，用于运行代理完成并通过LLM-as-judge方法评估性能。

MCP-Atlas is a comprehensive benchmark for evaluating the tool use capabilities of AI models across 36 Model Context Protocol (MCP) servers. It provides a standardized environment for running agents to complete tasks and evaluating model performance via the LLM-as-judge method.

创建时间：

2025-12-02

原始信息汇总

MCP-Atlas 数据集概述

数据集基本信息

数据集名称：MCP-Atlas
核心用途：一个用于评估AI模型工具使用能力的大规模基准测试。
评估范围：涵盖36个模型上下文协议（MCP）服务器。
评估方法：提供标准化环境运行智能体完成任务，并使用LLM-as-judge方法评估性能。

数据集内容与构成

MCP服务器：包含36个MCP服务器，涵盖搜索、代码执行、数据库、API和生产力工具等类别。
- 其中20个服务器无需任何设置。
- 11个服务器需要获取API密钥。
- 5个服务器需要API密钥和数据设置。
评估提示：包含500个带有真实预期工具调用和答案的评估提示。
评估指标：通过LLM-as-judge评估产生通过率、覆盖率和详细诊断结果。
环境：采用Docker化环境，确保在不同机器上的结果可复现。

数据集获取与相关资源

论文地址：https://static.scale.com/uploads/674f4cc7a74e35bcaae1c29a/MCP_Atlas.pdf
排行榜地址：https://scale.com/leaderboard/mcp_atlas
数据集地址：https://huggingface.co/datasets/ScaleAI/MCP-Atlas
服务器与工具摘要：https://gist.github.com/geobio/d0272d41ea395376233f1617a3988860
完整工具定义：https://gist.github.com/geobio/e1c08cc4d74d96223cb8cf0919a72c3e

数据集特点

服务器来源：所有服务器均为开源或从其他开源仓库分叉而来，未专门为MCP-Atlas开发新服务器。
版本控制：服务器版本被固定，以确保随时间推移不发生变化，保证可复现性。
工具数量：共包含307个工具。

数据集中包含的组件

36个MCP服务器：包括计算器、维基百科、文件系统、Git、天气、GitHub等。
智能体完成服务：用于运行具有工具使用的多轮LLM对话。
Docker容器化：提供一致的MCP服务器环境。
HTTP API：用于工具调用和列出可用工具。
示例调试脚本：位于services/agent-environment/dev_scripts/debug_and_concurrency_tests/curl_scripts/，用于直接测试单个MCP服务器。
完整源代码：展示MCP服务器、Docker设置、代理环境、完成服务和评估评分脚本。

搜集汇总

数据集介绍

构建方式

MCP-Atlas基准测试的构建过程体现了对真实世界工具使用场景的深度模拟。该数据集整合了36个覆盖搜索、代码执行、数据库、API及生产力工具等多元领域的MCP服务器，其中20个无需配置即可运行，其余则需要相应的API密钥或数据准备。数据集的500个评估提示均配有真实的工具调用轨迹和标准答案，这些内容均源自实际应用场景，确保了评估任务的实用性和代表性。通过Docker容器化技术，所有服务器环境被标准化封装，保证了实验的可复现性。版本锁定机制进一步防止了工具接口随时间变化可能带来的评估偏差，使得基准测试能够在不同计算环境中稳定运行。

特点

MCP-Atlas的核心特点在于其评估框架的全面性与真实性。它首次大规模集成了真实、开源的MCP服务器作为评估工具，而非模拟或简化版本，从而能够精准衡量智能体在复杂、异构环境中的实际工具调用能力。数据集提供了精细的评估指标，包括通过率、覆盖率和详细的诊断信息，这些指标通过LLM-as-judge方法自动生成，兼顾了效率与客观性。其架构设计支持高度可扩展的并发测试，并允许研究者灵活配置不同的语言模型与API密钥，以适应多样化的评估需求。这种设计使得该基准不仅是一个静态的数据集合，更是一个动态、可交互的评估生态系统。

使用方法

使用MCP-Atlas进行评估遵循一套清晰、可操作的流程。研究者首先需要克隆项目仓库并配置包含LLM API密钥的环境文件。随后，通过Docker命令启动集成了所有MCP服务器的代理环境服务，该服务在本地端口提供统一的工具调用接口。接着，启动独立的补全服务，该服务负责管理智能体与工具服务器之间的多轮交互循环。评估时，用户可以通过提供的Python脚本，指定目标语言模型并加载HuggingFace上的500个任务数据集进行批量测试。测试产生的补全结果将由另一个评估脚本使用指定的评判模型（默认为Gemini模型）进行自动化评分，最终生成包含详细得分与统计图表的评估报告。整个过程通过容器化与脚本化实现了高度的自动化与可复现性。

背景与挑战

背景概述

在人工智能领域，工具使用能力是衡量智能体能否有效执行现实任务的关键指标。MCP-Atlas数据集由Scale AI于近期创建，旨在构建一个大规模、标准化的基准测试平台，专门用于评估AI模型在真实Model Context Protocol（MCP）服务器环境下的工具调用与任务完成能力。该数据集整合了36个涵盖搜索、代码执行、数据库及生产力工具等多样类别的MCP服务器，并提供了500个带有真实工具调用轨迹的评估提示，通过LLM-as-judge方法进行自动化性能评测。其核心研究问题聚焦于如何系统化地量化智能体在复杂、异构工具环境中的操作效能，为智能体系统的开发与优化提供了重要的实验基础与评估标准，推动了具身智能与工具集成研究的发展。

当前挑战

MCP-Atlas所针对的领域挑战在于如何准确评估智能体在多样化、真实世界工具环境中的泛化与适应能力。传统基准测试往往局限于单一或模拟工具场景，难以反映智能体面对异构API、动态数据源及复杂工作流时的实际表现。该数据集通过引入多个需API密钥及数据配置的真实服务器，模拟了现实部署中常见的权限、依赖与集成难题。在构建过程中，挑战主要体现在确保36个MCP服务器的版本稳定性与可复现性，以及协调不同服务的数据导出与初始化流程，例如Airtable、MongoDB等平台需预先导入特定样本数据以保障任务执行的正确性。此外，设计覆盖多领域、多步骤的500个评估任务，并建立自动化、可靠的LLM评判流程，亦对数据集的严谨性与实用性提出了较高要求。

常用场景

经典使用场景

在人工智能代理研究领域，MCP-Atlas数据集被广泛用于评估大型语言模型在真实工具调用环境中的综合能力。该数据集通过集成36个涵盖搜索、代码执行、数据库、API及生产力工具等类别的MCP服务器，构建了一个标准化的多任务评估平台。研究人员通常利用其500个带有真实工具调用轨迹的评估提示，结合LLM-as-judge方法，系统性地测试模型在复杂工具使用场景下的表现，从而为模型能力提供量化基准。

实际应用

在实际应用层面，MCP-Atlas为开发面向真实世界的智能助手系统提供了关键验证工具。企业可利用该数据集评估其AI代理在整合外部API、操作数据库、执行代码等实际任务中的可靠性，从而优化产品设计。例如，在自动化办公、智能数据分析、跨平台信息检索等场景中，基于MCP-Atlas的评估能帮助开发者识别模型在工具链调用中的薄弱环节，提升系统在实际部署中的鲁棒性与效率。

衍生相关工作

围绕MCP-Atlas数据集，学术界与工业界已衍生出多项重要研究工作。部分研究聚焦于扩展其评估框架，如开发针对特定领域工具套件的专项评测子集；另有工作基于其标准化接口，构建了新型工具学习与规划算法。此外，该数据集启发了对多工具协同调用机制、工具使用安全性、以及评估方法本身的理论探讨，成为推动智能代理工具使用研究生态发展的核心基础设施之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集