five

MCPToolBench++

收藏
github2025-07-15 更新2025-07-25 收录
下载链接:
https://github.com/mcp-tool-bench/MCPToolBenchPP
下载链接
链接失效反馈
官方服务:
资源简介:
MCPToolBench++是一个大规模、多领域的AI Agent工具使用基准测试。截至2025年6月,该基准测试包括来自MCP和GitHub社区的45个类别的4k+ MCP服务器。数据集包含不同类别的单步和多步工具调用。我们还评估了一些最先进的Agent LLMs和基于RAG的系统。

MCPToolBench++ is a large-scale, multi-domain AI Agent tool benchmark. As of June 2025, this benchmark encompasses over 4k MCP servers from 45 categories within the MCP and GitHub communities. The dataset includes single-step and multi-step tool invocations across various categories. We have also evaluated some of the most advanced Agent LLMs and RAG-based systems.
创建时间:
2025-07-07
原始信息汇总

MCPToolBench++ 数据集概述

数据集基本信息

  • 名称: MCPToolBench++
  • 类型: 大规模、多领域AI Agent工具使用基准测试
  • 规模: 包含来自45个以上类别的4000+ MCP服务器(截至2025年6月)
  • 内容: 包含单步和多步工具调用任务

主要功能领域

  1. 浏览器操作

    • 典型工具: puppeteer_navigate, playwright_screenshot等
    • 任务示例: 网页导航、按钮点击、截图等
    • 评估指标: AST, Pass@1
  2. 文件系统

    • 典型工具: read_file, list_directory_with_sizes等
    • 任务示例: 文件内容读取、目录树查看等
  3. 搜索

    • 典型工具: google-web-search, tavily-search等
    • 任务示例: 网络信息检索
  4. 地图服务

    • 多语言支持: 英语、法语、俄语等
    • 任务示例: 天气查询、路线规划、地点搜索等
  5. 支付系统

    • 支持平台: PayPal, Alipay等
    • 任务示例: 发票创建、产品创建等
    • 特殊要求: 需要沙盒环境配置
  6. 金融

    • 任务示例: 股票价格查询、市值查询等

性能排行榜

  • 评估模型: Claude系列、GPT4o、Qwen3系列、Kimi K2等
  • 评估指标: AST(准确率)、Pass@1(一次通过率)
  • 领域表现:
    • 文件系统: Qwen3 Max表现最佳(AST 0.9419, Pass@1 0.8871)
    • 支付系统: GPT4o表现最佳(AST 0.7077, Pass@1 0.5742)

数据集使用

  • 运行方式: 通过Python脚本执行测试

  • 示例命令: bash python3 run.py --stage tool_call --input_file ./data/browser/browser_single_demo.json --category browser --model qwen3-max

  • 输出格式: JSON日志文件包含详细评估结果

数据示例

  • 结构: 包含UUID、类别、工具列表、查询语句、函数调用标签等
  • 示例任务: json { "query": "Navigate to the Wikipedia website...", "function_call_label": [{ "name": "playwright_navigate", "input": {"url": "https://www.wikipedia.org"} }] }

注意事项

  • 项目状态: 仍在开发中(WIP),将持续发布更多领域数据集
  • 环境要求: 需要配置API密钥和MCP Marketplace客户端
搜集汇总
数据集介绍
main_image_url
构建方式
MCPToolBench++数据集作为大规模多领域AI智能体工具使用基准,其构建过程体现了严谨的工程方法论。研究团队从MCP和GitHub社区系统性地采集了超过45个类别的4000余个MCP服务器数据,通过标准化协议对浏览器操作、文件系统管理、金融交易等典型场景进行建模。数据构建采用分层抽样策略,既包含单步工具调用任务,也设计了复杂的多步骤工作流,每个数据实例都经过严格的模式验证和功能测试,确保协议规范与真实应用场景的高度一致性。
特点
该数据集最显著的特征在于其多维度的评估体系设计。从技术维度看,覆盖了Playwright、Puppeteer等主流自动化工具的调用能力评估;从领域维度看,横跨浏览器操作、金融交易、地图服务等六大核心场景;从语言维度看,支持英语、法语、俄语等多语种任务。数据集特别设计了AST(抽象语法树)和Pass@1双重评估指标,既能分析工具调用的语法正确性,又能评估功能实现的准确性,为智能体工具使用能力提供了立体化的测评框架。
使用方法
使用该数据集需遵循标准化的评估流程。研究人员首先需配置MCP Marketplace客户端环境,通过UVicorn启动本地服务端口。评估脚本采用模块化设计,支持通过--category参数指定测试领域,--model参数选择待测模型,--pass_k参数控制采样次数。典型评估命令如'python3 run.py --stage tool_call --input_file ./data/browser/browser_0713_single.json --category browser --model qwen3-max',执行后将生成包含AST通过率和任务完成率的详细评估报告。数据集提供的JSON Schema明确定义了工具调用规范,支持研究者进行定制化任务扩展。
背景与挑战
背景概述
MCPToolBench++是由DeepNLP社区于2025年推出的多领域AI智能体工具使用基准测试集,旨在评估现代大语言模型在复杂工具调用场景中的表现。该数据集汇聚了来自MCP和GitHub社区的4500余个服务器实例,涵盖浏览器操作、文件系统管理、金融交易等45个专业领域,既包含单步工具调用也涉及多步流程组合。作为智能体能力评估的重要基础设施,该基准通过标准化测试框架推动了AI工具使用能力的量化研究,为智能体系统的开发提供了关键性能参照。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需要解决多模态工具调用的组合复杂性,特别是在跨领域任务中保持语义理解和工具选择的准确性;在构建过程中,需克服大规模真实场景数据采集的困难,包括工具API的异构性整合、多语言查询处理以及沙箱环境的安全隔离。测试结果表明,当前最先进模型在金融交易等专业领域的工具调用准确率仍低于60%,反映出复杂领域知识融合的瓶颈问题。
常用场景
经典使用场景
在人工智能代理工具使用领域,MCPToolBench++数据集作为一项大规模、多领域的基准测试工具,其经典使用场景主要集中在评估和比较不同AI代理模型在浏览器操作、文件系统管理、网络搜索、地图服务、支付系统以及金融数据查询等方面的工具调用能力。通过模拟真实世界的工具使用任务,该数据集为研究人员提供了一个标准化的测试平台,用以衡量模型在复杂工具使用场景下的表现。
衍生相关工作
基于MCPToolBench++数据集,学术界和工业界已衍生出多项重要研究工作。其中包括针对特定领域工具使用的优化算法、多工具协同调用的策略研究,以及工具使用错误的诊断和修复方法。这些工作不仅扩展了数据集的应用范围,也为AI代理工具使用技术的进步提供了新的研究方向。
数据集最近研究
最新研究方向
在人工智能代理工具应用领域,MCPToolBench++数据集作为多领域、大规模的工具使用基准测试平台,正逐渐成为评估和优化AI代理模型性能的重要资源。该数据集涵盖了浏览器操作、文件系统管理、搜索、地图、支付和金融等多个领域的工具调用任务,为研究者提供了丰富的测试场景。最新研究聚焦于提升AI代理在复杂多步骤工具调用中的表现,特别是在跨领域任务中的泛化能力。随着Qwen3 Max等大型语言模型在文件系统任务中展现出接近95%的准确率,研究者们正在探索如何将这些成功经验迁移到其他领域。同时,多语言支持能力的提升也成为近期研究热点,特别是在地图服务等需要处理全球化查询的任务中。这一数据集的发展为AI代理在实际应用场景中的部署提供了重要的性能评估依据,推动了工具增强型智能体技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作