StableToolBench

Name: StableToolBench
Creator: 清华大学人工智能产业研究院
Published: 2024-03-13 22:08:19
License: 暂无描述

arXiv2024-03-13 更新2024-06-21 收录

下载链接：

https://zhichengg.github.io/stb.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

StableToolBench是一个针对大型语言模型工具学习的大规模稳定基准测试数据集，由清华大学人工智能产业研究院开发。该数据集通过引入虚拟API服务器和稳定评估系统，解决了以往依赖在线工具和API不稳定性的问题。数据集包含大量模拟API，通过缓存系统和API模拟器互补，确保API行为的稳定性和可重复性。此外，评估系统采用GPT-4作为自动评估器，设计了可解任务的通过率和胜率，以消除评估过程中的随机性。StableToolBench旨在为大型语言模型提供一个稳定、真实的工具使用环境，以评估其在解决实际问题中的能力。

StableToolBench is a large-scale, stable benchmark dataset for large language model (LLM) tool learning, developed by the Institute for AI Industry Research (AIR) at Tsinghua University. This dataset resolves the instability issues plaguing prior research that relies on online tools and APIs by introducing virtual API servers and a stable evaluation system. It comprises a vast collection of simulated APIs, ensuring the stability and reproducibility of API behaviors through the synergy between caching systems and API simulators. Furthermore, the evaluation system adopts GPT-4 as its automatic evaluator, and establishes metrics including pass rate and win rate for solvable tasks to eliminate randomness during the evaluation process. StableToolBench aims to provide a stable, realistic tool-use environment for large language models, enabling the evaluation of their capabilities in solving real-world problems.

提供机构：

清华大学人工智能产业研究院

创建时间：

2024-03-12

搜集汇总

数据集介绍

构建方式

在大型语言模型工具学习领域，评估模型利用外部工具的能力需要大规模且稳定的基准测试。StableToolBench的构建旨在解决先前基准中API状态不稳定与评估随机性的问题。该数据集通过虚拟API服务器与稳定评估系统实现：虚拟服务器整合了缓存系统与API模拟器，缓存系统存储历史API调用响应以确保可复现性，而API模拟器则利用大型语言模型基于文档与示例模拟未缓存或不可用API的行为；评估系统则采用多模型共识判定任务可解性，并基于GPT-4设计可解通过率与可解胜率指标，以消除评估过程中的不确定性。

使用方法

研究人员可利用StableToolBench系统性地评估大型语言模型在工具学习场景下的性能。使用过程遵循标准基准测试流程：模型接收包含工具文档与用户查询的任务，通过规划调用序列与虚拟API服务器交互；服务器依据预设规则优先返回缓存响应，若未命中则尝试调用真实API，最终由API模拟器生成响应。评估阶段，首先基于数据集中预筛选的可解任务子集运行模型，随后使用集成GPT-4的评估器计算可解通过率与可解胜率。该框架支持对多种推理策略与模型变体进行稳定比较，并为工具学习算法的开发与优化提供了可靠实验平台。

背景与挑战

背景概述

随着大语言模型技术的迅猛发展，工具学习作为增强模型与现实世界交互能力的关键方向，逐渐成为研究热点。StableToolBench由清华大学计算机科学与技术系及人工智能产业研究院的郭志程、程思杰等研究人员于2024年提出，其核心研究问题在于解决现有工具学习基准测试中普遍存在的稳定性不足问题。该数据集在ToolBench基础上演进，通过引入虚拟API服务器与稳定评估系统，旨在为大规模、可复现的工具能力评估提供可靠基础，对推动语言模型与外部工具的高效集成具有重要影响力。

当前挑战

在工具学习领域，评估模型利用外部工具解决复杂现实任务的能力面临两大挑战：一是现有基准测试依赖的在线API状态不稳定，超过半数工具存在访问授权失效或服务中断问题，导致评估结果难以复现和比较；二是自动评估过程中，由于任务复杂性，传统评估器如GPT-3.5难以准确判别任务可解性与答案正确性，引入了显著随机性。在数据集构建层面，挑战在于如何平衡大规模真实API的多样性与系统稳定性，同时设计能够抵御API失效的缓存与模拟机制，并开发出能够可靠区分模型性能的评估指标与流程。

常用场景

经典使用场景

在大型语言模型工具学习领域，评估模型调用外部API的能力需要大规模且稳定的基准测试环境。StableToolBench通过构建虚拟API服务器与稳定评估系统，为研究者提供了经典的大规模工具学习评测平台。其核心使用场景在于系统性地评估不同LLM在多样化真实API集合上的工具调用性能，通过模拟现实世界中API可能出现的失效与授权变更，确保评测结果具有高度的可复现性与可比性。该数据集常被用于对比分析诸如CoT与DFS等不同推理策略，以及GPT系列与开源模型在复杂工具使用任务上的表现差异。

解决学术问题

该数据集主要解决了工具学习基准测试中长期存在的稳定性难题。先前研究依赖手工构建的小规模工具或大规模真实在线API，前者难以反映现实场景的复杂性，后者则因API状态不稳定导致评测结果不可复现。StableToolBench通过引入缓存系统与API模拟器，有效缓解了API失效与授权变更带来的干扰；同时，其设计的可解任务通过率与胜率评估指标，并采用GPT-4作为自动评估器，显著降低了评测过程中的随机性。这为学术界提供了稳定、可靠的性能衡量标准，使得不同模型与方法的横向比较成为可能，推动了工具学习领域的科学化评估进程。

实际应用

在实际应用层面，StableToolBench为开发能够可靠集成外部工具的智能体提供了关键的训练与验证环境。其虚拟API服务器能够模拟各类网络服务、数据库查询、支付网关等真实接口的行为，使开发者能在受控且稳定的条件下，测试和优化LLM对复杂工作流的规划与执行能力。例如，在构建自动化客服、智能数据分析助手或跨平台信息整合系统时，可利用该基准测试智能体在部分API失效或响应格式变化时的鲁棒性。这种接近真实世界的测试能力，加速了将工具学习技术从实验室推向实际产品落地的进程。

数据集最近研究