MCPToolBench++

github2025-07-15 更新2025-07-25 收录

下载链接：

https://github.com/mcp-tool-bench/MCPToolBenchPP

下载链接

链接失效反馈

官方服务：

资源简介：

MCPToolBench++是一个大规模、多领域的AI Agent工具使用基准测试。截至2025年6月，该基准测试包括来自MCP和GitHub社区的45个类别的4k+ MCP服务器。数据集包含不同类别的单步和多步工具调用。我们还评估了一些最先进的Agent LLMs和基于RAG的系统。

MCPToolBench++ is a large-scale, multi-domain AI Agent tool benchmark. As of June 2025, this benchmark encompasses over 4k MCP servers from 45 categories within the MCP and GitHub communities. The dataset includes single-step and multi-step tool invocations across various categories. We have also evaluated some of the most advanced Agent LLMs and RAG-based systems.

创建时间：

2025-07-07

原始信息汇总

MCPToolBench++ 数据集概述

数据集基本信息

名称: MCPToolBench++
类型: 大规模、多领域AI Agent工具使用基准测试
规模: 包含来自45个以上类别的4000+ MCP服务器（截至2025年6月）
内容: 包含单步和多步工具调用任务

主要功能领域

浏览器操作
- 典型工具: puppeteer_navigate, playwright_screenshot等
- 任务示例: 网页导航、按钮点击、截图等
- 评估指标: AST, Pass@1
文件系统
- 典型工具: read_file, list_directory_with_sizes等
- 任务示例: 文件内容读取、目录树查看等
搜索
- 典型工具: google-web-search, tavily-search等
- 任务示例: 网络信息检索
地图服务
- 多语言支持: 英语、法语、俄语等
- 任务示例: 天气查询、路线规划、地点搜索等
支付系统
- 支持平台: PayPal, Alipay等
- 任务示例: 发票创建、产品创建等
- 特殊要求: 需要沙盒环境配置
金融
- 任务示例: 股票价格查询、市值查询等

性能排行榜

评估模型: Claude系列、GPT4o、Qwen3系列、Kimi K2等
评估指标: AST(准确率)、Pass@1(一次通过率)
领域表现:
- 文件系统: Qwen3 Max表现最佳(AST 0.9419, Pass@1 0.8871)
- 支付系统: GPT4o表现最佳(AST 0.7077, Pass@1 0.5742)

数据集使用

运行方式: 通过Python脚本执行测试
示例命令: bash python3 run.py --stage tool_call --input_file ./data/browser/browser_single_demo.json --category browser --model qwen3-max
输出格式: JSON日志文件包含详细评估结果

数据示例

结构: 包含UUID、类别、工具列表、查询语句、函数调用标签等
示例任务: json { "query": "Navigate to the Wikipedia website...", "function_call_label": [{ "name": "playwright_navigate", "input": {"url": "https://www.wikipedia.org"} }] }

注意事项

项目状态: 仍在开发中(WIP)，将持续发布更多领域数据集
环境要求: 需要配置API密钥和MCP Marketplace客户端

搜集汇总

数据集介绍

构建方式

MCPToolBench++数据集作为大规模多领域AI智能体工具使用基准，其构建过程体现了严谨的工程方法论。研究团队从MCP和GitHub社区系统性地采集了超过45个类别的4000余个MCP服务器数据，通过标准化协议对浏览器操作、文件系统管理、金融交易等典型场景进行建模。数据构建采用分层抽样策略，既包含单步工具调用任务，也设计了复杂的多步骤工作流，每个数据实例都经过严格的模式验证和功能测试，确保协议规范与真实应用场景的高度一致性。

特点

该数据集最显著的特征在于其多维度的评估体系设计。从技术维度看，覆盖了Playwright、Puppeteer等主流自动化工具的调用能力评估；从领域维度看，横跨浏览器操作、金融交易、地图服务等六大核心场景；从语言维度看，支持英语、法语、俄语等多语种任务。数据集特别设计了AST（抽象语法树）和Pass@1双重评估指标，既能分析工具调用的语法正确性，又能评估功能实现的准确性，为智能体工具使用能力提供了立体化的测评框架。

使用方法

使用该数据集需遵循标准化的评估流程。研究人员首先需配置MCP Marketplace客户端环境，通过UVicorn启动本地服务端口。评估脚本采用模块化设计，支持通过--category参数指定测试领域，--model参数选择待测模型，--pass_k参数控制采样次数。典型评估命令如'python3 run.py --stage tool_call --input_file ./data/browser/browser_0713_single.json --category browser --model qwen3-max'，执行后将生成包含AST通过率和任务完成率的详细评估报告。数据集提供的JSON Schema明确定义了工具调用规范，支持研究者进行定制化任务扩展。

背景与挑战

背景概述

MCPToolBench++是由DeepNLP社区于2025年推出的多领域AI智能体工具使用基准测试集，旨在评估现代大语言模型在复杂工具调用场景中的表现。该数据集汇聚了来自MCP和GitHub社区的4500余个服务器实例，涵盖浏览器操作、文件系统管理、金融交易等45个专业领域，既包含单步工具调用也涉及多步流程组合。作为智能体能力评估的重要基础设施，该基准通过标准化测试框架推动了AI工具使用能力的量化研究，为智能体系统的开发提供了关键性能参照。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需要解决多模态工具调用的组合复杂性，特别是在跨领域任务中保持语义理解和工具选择的准确性；在构建过程中，需克服大规模真实场景数据采集的困难，包括工具API的异构性整合、多语言查询处理以及沙箱环境的安全隔离。测试结果表明，当前最先进模型在金融交易等专业领域的工具调用准确率仍低于60%，反映出复杂领域知识融合的瓶颈问题。

常用场景

经典使用场景

在人工智能代理工具使用领域，MCPToolBench++数据集作为一项大规模、多领域的基准测试工具，其经典使用场景主要集中在评估和比较不同AI代理模型在浏览器操作、文件系统管理、网络搜索、地图服务、支付系统以及金融数据查询等方面的工具调用能力。通过模拟真实世界的工具使用任务，该数据集为研究人员提供了一个标准化的测试平台，用以衡量模型在复杂工具使用场景下的表现。

衍生相关工作

基于MCPToolBench++数据集，学术界和工业界已衍生出多项重要研究工作。其中包括针对特定领域工具使用的优化算法、多工具协同调用的策略研究，以及工具使用错误的诊断和修复方法。这些工作不仅扩展了数据集的应用范围，也为AI代理工具使用技术的进步提供了新的研究方向。

数据集最近研究