MCPToolBench++

Name: MCPToolBench++
Creator: 蚂蚁集团
Published: 2025-08-11 11:16:02
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://github.com/mcp-tool-bench/McpToolBenchPP https:/ /huggingface.co/datasets/MCPToolBench/MCPToolBenchPP

下载链接

链接失效反馈

官方服务：

资源简介：

MCPToolBench++是一个大规模、多领域的AI Agent工具使用基准数据集，包含1.5K个问答对，覆盖了6个领域的MCP服务器，包括搜索、地图、金融、支付、自动浏览器使用、文件系统等。数据集结合了单步和多步工具调用问题，评估LLM模型和代理系统的多样化和通用能力。该数据集采用流水线流程，从超过40个类别的市场中选择MCP工具，并清洗MCP配置和工具模式，保留高质量的MCP服务器和工具。此外，数据集还支持多语言，例如全球地图路线查找、全球金融市场金融数据查询等。

MCPToolBench++ is a large-scale, multi-domain AI Agent tool-use benchmark dataset containing 1.5K question-answer pairs, covering MCP servers across 6 domains including search, mapping, finance, payment, automated browser usage, file systems, and more. This dataset integrates single-step and multi-step tool invocation tasks to evaluate the diverse and general capabilities of LLM models and agent systems. The dataset adopts a pipeline workflow, where MCP tools are selected from a marketplace with over 40 categories, followed by cleaning MCP configurations and tool schemas to retain high-quality MCP servers and tools. Furthermore, the dataset supports multiple languages, with use cases including global map route finding, financial data queries for global financial markets, and more.

提供机构：

蚂蚁集团

创建时间：

2025-08-11

搜集汇总

数据集介绍

构建方式

MCPToolBench++数据集的构建基于一个自动化流程，涵盖了来自40多个类别的4000多个MCP服务器。数据收集主要来源于开放的MCP市场（如smithery.ai、deepnlp.org等）和GitHub社区。通过工具采样器（Tool Sampler）和查询生成器（Query Generator）的结合，数据集生成了包括单步和多步工具调用的1500个问答对。此外，还采用了语义检查和合理性检查等后处理步骤以确保数据质量。

特点

MCPToolBench++数据集具有多领域和多语言支持的特点，覆盖了搜索、地图、金融、支付等多个实际应用场景。其独特之处在于结合了单步和多步工具调用任务，能够全面评估AI代理的工具使用能力。此外，数据集还支持多语言查询（如英语、中文、法语等），进一步增强了其通用性和实用性。数据集的工具调用成功率动态变化，反映了真实场景中的工具可靠性差异。

使用方法

MCPToolBench++数据集主要用于评估大型语言模型（LLM）和AI代理在调用MCP工具时的性能。使用时，需通过MCP客户端或代理工作流执行工具调用，并利用数据集提供的问答对进行测试。评估指标包括抽象语法树（AST）准确率、Pass@K准确率和工具调用成功率。用户可通过GitHub或Hugging Face平台获取数据集，并参考论文中的实验设置复现结果。

背景与挑战

背景概述

MCPToolBench++是由Ant Group的研究人员Shiqing Fan、Xichen Ding、Liang Zhang和Linjian Mo于2025年提出的大规模AI代理模型上下文协议（MCP）工具使用基准。该数据集旨在解决大型语言模型（LLM）和AI代理在使用MCP工具时的评估难题。MCP作为一种标准化协议，为LLM提供了整合多样化数据源和API结果的统一方法。然而，现有评估方法在覆盖多样化的MCP工具和响应格式方面存在不足，且实际工具调用的成功率因服务器差异而波动。MCPToolBench++基于来自40多个类别的4000多个MCP服务器，构建了包含单步和多步工具调用的综合评估框架，推动了AI代理工具使用能力的研究。

当前挑战

MCPToolBench++面临的挑战主要体现在两个方面：领域问题和构建过程。在领域问题方面，评估LLM和AI代理的MCP工具使用能力时，缺乏覆盖多样化工具和模式的综合基准，且工具调用的响应格式多样，增加了评估的复杂性。此外，实际工具调用的成功率不稳定，且LLM的上下文窗口限制了单次运行中可调用的工具数量。在构建过程中，挑战包括工具模式的复杂性管理、参数推理能力的不足（如处理股票代码和地理编码等专业参数）、多样化响应的评估难度，以及工具调用成功率的动态性和潜在风险（如隐私攻击）。这些挑战需要通过精细的数据集设计和严格的验证流程来解决。

常用场景

经典使用场景

MCPToolBench++作为大规模AI代理工具使用基准，在评估大型语言模型（LLM）调用标准化模型上下文协议（MCP）工具的能力方面具有经典应用场景。该数据集通过覆盖搜索、地图、金融、文件系统等40余个领域的4,000多个MCP服务器，为研究者提供了丰富的多步骤工具调用链评估环境。例如在金融领域，模型需依次调用股票数据获取、图表绘制和涨跌幅计算工具来完成复合查询任务，充分验证了模型在复杂工具调度和参数推理上的表现。

衍生相关工作

该数据集催生了多个重要衍生研究：基于其工具调用链分析框架，Luo等人(2025)开发了MCP-Radar多维评估系统；Gao等(2025)提出的工具调度优化算法显著提升了复杂工具组合的调用成功率。此外，其首创的AST DAG准确性指标被Berkeley Function Calling Leaderboard等后续基准采纳，推动了Agent评估方法论的发展。数据集构建流程中的查询生成与验证技术也被APIGen等自动化数据集生成工作借鉴。

数据集最近研究