MCP-Universe

Name: MCP-Universe
Creator: Salesforce AI Research
Published: 2025-08-20 21:28:58
License: 暂无描述

arXiv2025-08-20 更新2025-08-22 收录

下载链接：

https://github.com/SalesforceAIResearch/MCP-Universe

下载链接

链接失效反馈

官方服务：

资源简介：

MCP-Universe是一个全面评估大型语言模型（LLMs）在现实世界任务中性能的基准数据集。该数据集由Salesforce AI Research创建，旨在评估LLMs与外部数据源和工具的交互能力。数据集包含11个MCP服务器，涵盖了6个核心领域，包括位置导航、仓库管理、财务分析、3D设计、浏览器自动化和网络搜索。MCP-Universe数据集包含231个任务，旨在评估LLMs在处理真实世界数据、导航复杂信息、管理版本控制流程和执行实时票价分析等场景下的能力。数据集的创建过程包括执行基于评估的评估器，包括格式评估器、静态评估器和动态评估器，以确保严格的评估。MCP-Universe数据集的应用领域是评估LLMs与外部数据源和工具的交互能力，旨在解决LLMs在实际应用中的性能限制问题。

MCP-Universe is a benchmark dataset for comprehensively evaluating the performance of large language models (LLMs) in real-world tasks. Developed by Salesforce AI Research, this dataset is designed to assess the ability of LLMs to interact with external data sources and tools. It comprises 11 MCP servers spanning six core domains, including location navigation, warehouse management, financial analysis, 3D design, browser automation, and web search. The MCP-Universe dataset contains 231 tasks, which aim to evaluate LLMs' capabilities in scenarios such as processing real-world data, navigating complex information, managing version control workflows, and conducting real-time fare analysis. During its development, evaluation-based assessors including format assessors, static assessors and dynamic assessors were adopted to ensure rigorous evaluation. The core application of MCP-Universe is to evaluate the interaction capabilities of LLMs with external data sources and tools, with the goal of addressing the performance limitations of LLMs in real-world practical applications.

提供机构：

Salesforce AI Research

创建时间：

2025-08-20

原始信息汇总

MCP-Universe 数据集概述

数据集简介

MCP-Universe 是一个用于开发、测试和基准测试 AI 智能体的综合框架。该框架提供了一个强大的平台，用于在各种任务环境中构建和评估 AI 智能体及大型语言模型（LLMs）。支持与外部 MCP 服务器的无缝集成，并促进复杂的智能体编排工作流。

核心特点

真实世界场景评估：通过与实际 MCP 服务器交互，在真实应用场景中评估 LLMs
多领域支持：涵盖网络搜索、位置导航、浏览器自动化、金融分析、仓库管理和 3D 设计等多个领域
动态评估：支持时间敏感的实时环境评估
长时程推理：能够处理多步骤任务的长期推理
大规模工具空间：支持多样化的 MCP 服务器工具空间

性能表现

当前最先进模型在真实世界 MCP 交互中表现如下：

GPT-5：43.72% 成功率
Grok-4：33.33% 成功率
Claude-4.0-Sonnet：29.44% 成功率

架构组成

应用层

Dashboard (Gradio)
Web API (FastAPI)
Python 库
基准测试套件

编排层

工作流系统 (Chain, Router 等)
基准测试运行器 (评估引擎)

智能体层

BasicAgent
ReActAgent
FunctionCall Agent
其他智能体类型

基础层

MCP 管理器 (服务器和客户端)
LLM 管理器 (多模型支持)
内存系统 (RAM, Redis)
追踪器 (日志记录)

技术需求

系统要求

Python：3.10 或更高版本
Docker：用于运行 Docker 化的 MCP 服务器
PostgreSQL (可选)：用于数据库存储和持久化
Redis (可选)：用于缓存和内存管理

API 密钥要求

核心 LLM 提供商

OpenAI API 密钥 (GPT 模型)
Anthropic API 密钥 (Claude 模型)
Google API 密钥 (Gemini 模型)

领域特定服务

SerpAPI 密钥 (网络搜索)
Google Maps API 密钥 (地理位置服务)
GitHub 个人访问令牌 (仓库操作)
Notion API 密钥 (工作空间访问)

评估领域

支持的基准测试领域

网络搜索：搜索引擎和信息检索任务
位置导航：地理和地图相关查询
浏览器自动化：网络交互和自动化场景
金融分析：市场数据分析和金融计算
仓库管理：Git 操作和代码仓库任务
3D 设计：基于 Blender 的 3D 建模和设计任务

基准测试配置

配置文件位置

所有基准测试配置文件位于：mcpuniverse/benchmark/configs/test/

主要配置文件

web_search.yaml：网络搜索基准测试
location_navigation.yaml：位置导航基准测试
browser_automation.yaml：浏览器自动化基准测试
financial_analysis.yaml：金融分析基准测试
repository_management.yaml：仓库管理基准测试
3d_design.yaml：3D 设计基准测试

自定义基准测试

任务定义格式

任务定义采用 JSON 格式，包含以下字段：

category：任务类别
question：主要问题
mcp_servers：支持的 MCP 服务器列表
output_format：期望的输出格式
evaluators：评估测试列表

基准测试定义格式

基准测试定义采用 YAML 格式，包含：

LLM 配置：指定使用的语言模型
智能体配置：定义智能体类型和配置
基准测试配置：指定要评估的任务列表

安全注意事项

建议使用专用的测试 GitHub 账户进行评估
安全存储和管理 API 密钥
授予最小必要权限
在隔离环境中运行 Blender 操作

相关资源

论文：https://arxiv.org/abs/2508.14704
官方网站：https://mcp-universe.github.io/
排行榜：https://mcp-universe.github.io/#results
Discord 社区：https://discord.gg/t9tU77GF

搜集汇总

数据集介绍

构建方式

MCP-Universe数据集通过整合真实世界的模型上下文协议（MCP）服务器构建，覆盖位置导航、仓库管理、金融分析、3D设计、浏览器自动化和网络搜索六大核心领域。数据采集基于11个实际MCP服务器提供的133种工具，通过人工设计231项复杂任务，确保每项任务需依赖MCP工具完成且需多步推理。任务设计经过交叉验证，排除可通过大型语言模型独立解决的简单场景，并采用执行式评估器而非模拟环境，以真实API端点和动态数据源为基础，保证评估的严谨性与现实适用性。

特点

该数据集突出表现为三大特点：一是真实性，所有任务均基于实际MCP服务器与实时数据源，如Google Maps、GitHub和Yahoo Finance，避免了模拟环境的简化假设；二是复杂性，任务设计涵盖长时程推理、大范围陌生工具调用和长上下文窗口挑战，例如需处理多轮工具调用和实时数据验证；三是评估多维性，采用格式评估器、静态评估器和动态评估器三重机制，分别检验输出格式合规性、时间不变内容匹配性及时间敏感任务的实时真值验证，全面衡量模型在真实应用中的表现。

使用方法

使用MCP-Universe时，需通过其开源评估框架配置语言模型代理与MCP服务器，框架自动协调资源分配、API管理和评估流程。用户可加载特定任务指令，代理通过MCP协议与服务器交互，执行多步工具调用以完成任务。评估阶段采用自动化执行检查，包括格式验证、内容匹配和实时数据比对，输出二进制成功/失败判定。该框架支持扩展新代理和服务器，并提供用户界面以便直观监控和结果分析，适用于研究语言模型在复杂工具使用环境中的实际能力。

背景与挑战

背景概述

MCP-Universe由Salesforce AI Research于2025年8月提出，作为首个专为评估大语言模型在真实模型上下文协议（MCP）环境中性能而设计的综合性基准测试。该数据集聚焦于解决现有评估方法在模拟真实应用场景方面的不足，特别是长时程推理和大规模陌生工具空间处理的缺陷。通过整合6个核心领域和11个真实MCP服务器，涵盖地理位置导航、仓库管理、金融分析等多元应用场景，MCP-Universe显著推动了智能代理系统在复杂现实任务中的评估标准化与研究进展。

当前挑战

该数据集核心挑战包括模型在长上下文窗口中的性能退化问题，随着交互步骤增加，输入标记数急剧上升导致上下文溢出；其次，面对未知工具时模型缺乏对MCP服务器接口规范与使用模式的先验知识，造成工具调用错误；此外，跨领域性能差异显著，模型在不同应用场景中表现波动较大。构建过程中需克服实时数据动态性带来的评估难题，需设计执行式评估器而非依赖静态LLM评判，并需手动设计高质量任务以确保真实性与复杂性，避免数据泄露与简化模拟。

常用场景

经典使用场景

在人工智能系统集成领域，MCP-Universe作为首个基于真实世界模型上下文协议服务器的基准测试平台，其经典应用场景聚焦于评估大型语言模型在复杂多步骤工具调用任务中的表现。该数据集通过连接11个真实MCP服务器，模拟了地理导航、金融分析、浏览器自动化等六大核心领域的实际操作环境，要求模型处理长上下文推理、未知工具接口适应等现实挑战。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于工具探索的自适应学习框架、长上下文压缩技术以及跨领域工具泛化方法。受其启发，研究者开发了如工具知识图谱构建、动态评估指标优化等衍生工作，同时推动了如MCP-RADAR和LiveMCPBench等后续基准测试的改进，形成了以真实世界工具使用为核心的新兴研究范式。

数据集最近研究