five

MCPToolBench++

收藏
arXiv2025-08-11 更新2025-08-13 收录
下载链接:
https://github.com/mcp-tool-bench/McpToolBenchPP https:/ /huggingface.co/datasets/MCPToolBench/MCPToolBenchPP
下载链接
链接失效反馈
官方服务:
资源简介:
MCPToolBench++是一个大规模、多领域的AI Agent工具使用基准数据集,包含1.5K个问答对,覆盖了6个领域的MCP服务器,包括搜索、地图、金融、支付、自动浏览器使用、文件系统等。数据集结合了单步和多步工具调用问题,评估LLM模型和代理系统的多样化和通用能力。该数据集采用流水线流程,从超过40个类别的市场中选择MCP工具,并清洗MCP配置和工具模式,保留高质量的MCP服务器和工具。此外,数据集还支持多语言,例如全球地图路线查找、全球金融市场金融数据查询等。

MCPToolBench++ is a large-scale, multi-domain AI Agent tool-use benchmark dataset containing 1.5K question-answer pairs, covering MCP servers across 6 domains including search, mapping, finance, payment, automated browser usage, file systems, and more. This dataset integrates single-step and multi-step tool invocation tasks to evaluate the diverse and general capabilities of LLM models and agent systems. The dataset adopts a pipeline workflow, where MCP tools are selected from a marketplace with over 40 categories, followed by cleaning MCP configurations and tool schemas to retain high-quality MCP servers and tools. Furthermore, the dataset supports multiple languages, with use cases including global map route finding, financial data queries for global financial markets, and more.
提供机构:
蚂蚁集团
创建时间:
2025-08-11
搜集汇总
数据集介绍
main_image_url
构建方式
MCPToolBench++数据集的构建基于一个自动化流程,涵盖了来自40多个类别的4000多个MCP服务器。数据收集主要来源于开放的MCP市场(如smithery.ai、deepnlp.org等)和GitHub社区。通过工具采样器(Tool Sampler)和查询生成器(Query Generator)的结合,数据集生成了包括单步和多步工具调用的1500个问答对。此外,还采用了语义检查和合理性检查等后处理步骤以确保数据质量。
特点
MCPToolBench++数据集具有多领域和多语言支持的特点,覆盖了搜索、地图、金融、支付等多个实际应用场景。其独特之处在于结合了单步和多步工具调用任务,能够全面评估AI代理的工具使用能力。此外,数据集还支持多语言查询(如英语、中文、法语等),进一步增强了其通用性和实用性。数据集的工具调用成功率动态变化,反映了真实场景中的工具可靠性差异。
使用方法
MCPToolBench++数据集主要用于评估大型语言模型(LLM)和AI代理在调用MCP工具时的性能。使用时,需通过MCP客户端或代理工作流执行工具调用,并利用数据集提供的问答对进行测试。评估指标包括抽象语法树(AST)准确率、Pass@K准确率和工具调用成功率。用户可通过GitHub或Hugging Face平台获取数据集,并参考论文中的实验设置复现结果。
背景与挑战
背景概述
MCPToolBench++是由Ant Group的研究人员Shiqing Fan、Xichen Ding、Liang Zhang和Linjian Mo于2025年提出的大规模AI代理模型上下文协议(MCP)工具使用基准。该数据集旨在解决大型语言模型(LLM)和AI代理在使用MCP工具时的评估难题。MCP作为一种标准化协议,为LLM提供了整合多样化数据源和API结果的统一方法。然而,现有评估方法在覆盖多样化的MCP工具和响应格式方面存在不足,且实际工具调用的成功率因服务器差异而波动。MCPToolBench++基于来自40多个类别的4000多个MCP服务器,构建了包含单步和多步工具调用的综合评估框架,推动了AI代理工具使用能力的研究。
当前挑战
MCPToolBench++面临的挑战主要体现在两个方面:领域问题和构建过程。在领域问题方面,评估LLM和AI代理的MCP工具使用能力时,缺乏覆盖多样化工具和模式的综合基准,且工具调用的响应格式多样,增加了评估的复杂性。此外,实际工具调用的成功率不稳定,且LLM的上下文窗口限制了单次运行中可调用的工具数量。在构建过程中,挑战包括工具模式的复杂性管理、参数推理能力的不足(如处理股票代码和地理编码等专业参数)、多样化响应的评估难度,以及工具调用成功率的动态性和潜在风险(如隐私攻击)。这些挑战需要通过精细的数据集设计和严格的验证流程来解决。
常用场景
经典使用场景
MCPToolBench++作为大规模AI代理工具使用基准,在评估大型语言模型(LLM)调用标准化模型上下文协议(MCP)工具的能力方面具有经典应用场景。该数据集通过覆盖搜索、地图、金融、文件系统等40余个领域的4,000多个MCP服务器,为研究者提供了丰富的多步骤工具调用链评估环境。例如在金融领域,模型需依次调用股票数据获取、图表绘制和涨跌幅计算工具来完成复合查询任务,充分验证了模型在复杂工具调度和参数推理上的表现。
衍生相关工作
该数据集催生了多个重要衍生研究:基于其工具调用链分析框架,Luo等人(2025)开发了MCP-Radar多维评估系统;Gao等(2025)提出的工具调度优化算法显著提升了复杂工具组合的调用成功率。此外,其首创的AST DAG准确性指标被Berkeley Function Calling Leaderboard等后续基准采纳,推动了Agent评估方法论的发展。数据集构建流程中的查询生成与验证技术也被APIGen等自动化数据集生成工作借鉴。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)和AI代理的快速发展,MCPToolBench++数据集在评估模型上下文协议(MCP)工具调用能力方面展现出重要意义。该数据集覆盖了40多个类别的4000多个MCP服务器,包含单步和多步工具调用任务,为研究多领域、多语言环境下的工具调用能力提供了全面基准。当前研究聚焦于提升模型在复杂工具链调用中的准确性和鲁棒性,特别是在金融、地图、浏览器操作等实际应用场景中的性能优化。此外,针对MCP工具调用的动态成功率和多样化响应评估,研究者们正探索更精细的AST DAG准确性指标和Pass@K评估方法,以应对工具调用中的参数推理、API错误处理等挑战。
相关研究论文
  • 1
    MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark蚂蚁集团 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作