StableToolBench

arXiv2025-09-30 收录

下载链接：

https://github.com/thunlp-mt/stabletoolbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为StableToolBench，是从ToolBench衍生出的评估数据集，旨在评估大型语言模型（LLMs）的工具学习能力。为了解决实时API可能带来的不稳定问题，该数据集还额外引入了缓存系统和API模拟器。此外，该数据集引入了两个关键指标：可解决通过率（SoPR）和可解决胜率（SoWR），以评估LLMs的表现。根据工具类别和场景，该数据集分为六个评估子集，用于大型语言模型的工具学习和评估任务。

This dataset, named StableToolBench, is an evaluation dataset derived from ToolBench, which is designed to assess the tool learning capabilities of large language models (LLMs). To mitigate the potential instability issues of real-time Application Programming Interfaces (APIs), this dataset additionally incorporates a caching system and API simulators. Furthermore, two key metrics, Solvable Pass Rate (SoPR) and Solvable Win Rate (SoWR), are introduced to evaluate the performance of LLMs. Based on tool categories and application scenarios, this dataset is split into six evaluation subsets for tool learning and evaluation tasks of large language models.

搜集汇总

数据集介绍

构建方式

在大型语言模型工具学习领域，评估基准的稳定性与可复现性至关重要。StableToolBench的构建旨在解决先前基准中API状态不稳定与评估随机性两大核心问题。该数据集以ToolBench为基础演进，通过设计虚拟API服务器与稳定评估系统实现。虚拟API服务器整合了缓存系统与API模拟器，缓存系统存储历史API调用响应以确保一致性，而API模拟器则利用大型语言模型基于文档与少量示例模拟真实API行为。当接收到API调用请求时，系统优先检索缓存，若未命中则尝试调用真实API，仅在两者均不可用时启用模拟器，从而在维持API多样性的同时保障了稳定性。

使用方法

使用StableToolBench进行模型评估时，研究者需遵循其集成的稳定评估流程。首先，基准会利用多个先进大型语言模型对任务进行可解性判定，筛选出确定的可解任务子集以消除任务本身模糊性带来的噪声。随后，在评估可解通过率时，GPT-4评估器将对模型生成的答案进行解决、未解决或不确定的三元判定，并据此计算得分。对于可解胜率，则在模型间进行成对比较，由GPT-4裁决胜负。整个评估过程依托于虚拟API服务器，用户无需担忧外部工具服务的实时可用性，即可获得稳定、可复现的性能度量，从而专注于模型工具使用能力的本质比较。

背景与挑战

背景概述

随着大语言模型在近年取得显著进展，工具学习领域应运而生，其核心在于将大语言模型与外部工具集成，以应对多样化的现实世界挑战。为系统评估大语言模型调用工具的能力，亟需构建大规模且稳定的基准测试。在此背景下，清华大学计算机科学与技术系、人工智能产业研究院等机构的研究团队于2024年提出了StableToolBench基准。该基准由ToolBench演进而来，旨在解决先前工具学习基准中因依赖手工构建的在线工具或大规模真实在线API所导致的规模有限或API状态不稳定等问题。StableToolBench通过引入虚拟API服务器与稳定评估系统，为工具学习提供了可复现、可比较的评估框架，对推动大语言模型在真实场景中的应用具有重要影响力。

当前挑战

StableToolBench致力于解决工具学习领域中的核心评估挑战，即如何在大规模、多样化的真实API环境中，稳定且可靠地衡量大语言模型使用外部工具的能力。具体挑战体现在两方面：其一，在领域问题层面，先前基准如ToolBench在评估过程中存在显著随机性，例如自动评估器GPT-3.5难以准确判别任务的可解性，导致模型性能评估波动；其二，在构建过程中，超过半数的在线API状态不稳定，存在授权失效、服务变更或网络错误等问题，致使基准测试的查询无法依赖原始工具完成，严重损害了评估的复现性与可比性。

常用场景

经典使用场景

在大型语言模型工具学习领域，StableToolBench作为一项前沿基准测试，其经典使用场景聚焦于评估模型在多样化真实工具环境中的调用与整合能力。该数据集通过构建包含超过16,000个真实API的大规模工具集合，模拟了从日常信息查询到专业领域操作的多维度任务，为研究者提供了检验模型工具使用熟练度的标准化平台。在具体应用中，模型需解析自然语言指令，自主选择并调用相应工具，最终生成符合用户需求的解决方案，这一过程全面覆盖了工具学习的核心环节。

解决学术问题

StableToolBench致力于解决工具学习基准测试中长期存在的稳定性与可复现性难题。传统基准往往受限于在线API的状态波动与评估过程的随机性，导致模型性能评估结果缺乏一致性。该数据集通过引入虚拟API服务器与稳定评估系统，有效缓解了API失效与响应变异带来的干扰。其设计的可解通过率与可解胜率等指标，结合GPT-4作为自动评估器，显著降低了评估噪声，为学术界提供了可靠且一致的性能衡量标准，推动了工具学习研究的科学化与规范化进程。

实际应用

在实际应用层面，StableToolBench为开发能够与真实世界API交互的智能助手系统提供了关键训练与评估基础。基于该数据集训练的模型，可被部署于客服自动化、智能信息检索、跨平台服务集成等场景，实现通过自然语言指令调用天气查询、航班预订、数据分析等外部工具的功能。其稳定的API模拟机制确保了系统在真实服务可能不可用时的鲁棒性，而大规模工具覆盖则提升了模型应对复杂、开放域任务的实际应用潜力，加速了语言模型从封闭文本生成向开放工具调用的能力跨越。

数据集最近研究