WildToolBench

github2026-01-31 更新2026-02-07 收录

下载链接：

https://github.com/yupeijei1997/WildToolBench

下载链接

链接失效反馈

官方服务：

资源简介：

WildToolBench是一个基于真实用户行为模式的LLM工具使用基准测试数据集，旨在评估大语言模型在多轮、多步骤工具使用中的表现。该数据集涵盖了用户行为的不可预测性、复杂性和灵活性，包括组合任务、隐含意图和指令转换等挑战。

WildToolBench is a benchmark dataset for LLM tool utilization based on real-world user behavior patterns, aiming to evaluate the performance of Large Language Models in multi-turn and multi-step tool usage. This dataset encompasses the unpredictability, complexity and flexibility of user behaviors, including challenges such as compositional tasks, implicit intentions and instruction transformation.

创建时间：

2026-01-03

原始信息汇总

WildToolBench 数据集概述

数据集简介

WildToolBench 是一个用于评估大型语言模型（LLM）在真实用户行为模式下使用工具能力的基准测试。该基准旨在解决现有评测忽视真实用户交互中不可预测、混乱和灵活性的问题，重点关注组合任务编排、跨对话轮的隐含意图推理以及指令混合转换等挑战。

核心特点

数据来源：基于真实世界用户行为模式构建。
核心挑战：涵盖组合性任务、隐含意图和指令转换三大用户行为挑战。
评估发现：对57个LLM的综合评估显示，没有模型的准确率超过15%，表明LLM的智能体能力在鲁棒性上存在显著差距。
创新性：提出的数据生成框架能够覆盖任意数量任务的所有可能动作空间，且除第一轮外均为真实的多轮任务。

数据集内容

测试数据位置：wild-tool-bench/data/Wild-Tool-Bench.jsonl
数据格式：支持生成原始数据、精简数据（移除检查器消息和角色切换消息）以及每个智能体的捕获数据，供研究人员使用。

使用方式

环境配置

创建 Conda 环境：conda create -n WildToolBench python=3.10
激活环境：conda activate WildToolBench
安装依赖：pip install -r requirements.txt

模型推理

支持 OpenAI 格式的 API 模型。
示例（以 deepseek-chat 为例）：
1. 配置环境变量文件 .env，设置 DEEPSEEK_API_KEY。
2. 执行命令：python3 -u -m wtb.openfunctions_evaluation --model=deepseek-chat

评估方法

执行命令：python3 -u -m wtb.eval_runner --model=deepseek-chat

数据生成框架

框架描述：可控多智能体数据生成框架，支持生成任意数量任务的数据。
示例生成命令（以4个任务为例）： bash python3 generate.py --layer-num-total 4 --user-model "deepseek-chat" --planner-model "deepseek-chat" --tool-model "deepseek-chat" --agent-model "deepseek-chat" --checker-model "deepseek-chat"
生成数据示例：展示了生成真实多轮隐含类型任务的过程，例如“第三张壁纸的上传者是谁？”，该任务需要模型参考上下文获取壁纸ID后调用工具获取详细信息。

相关资源

论文：ICLR 2026 论文（https://openreview.net/forum?id=yz7fL5vfpn）
代码仓库：https://github.com/yupeijei1997/WildToolBench

搜集汇总

数据集介绍

构建方式

在探索大语言模型工具使用能力的真实场景适应性时，WildToolBench的构建采用了创新的可控多智能体数据生成框架。该框架模拟了现实世界中用户行为的不可预测性与复杂性，通过部署多个角色智能体协同工作，生成了覆盖任意数量任务的全行动空间数据。生成过程不仅包含显式的任务指令，更嵌入了跨对话轮次的隐含意图与混合任务查询、澄清及闲聊的指令转换，从而确保了数据集的多样性与真实性。

特点

WildToolBench的核心特征在于其深刻捕捉并还原了用户与智能体交互的“野生”本质。数据集精心设计了组合性任务，要求模型协调复杂的工具调用拓扑结构；同时，隐含意图的分散性迫使模型进行深层次的上下文推理。此外，指令在任务查询、澄清与随意对话间的无缝转换，对模型动态调整策略的能力提出了严峻挑战。这些特点共同构成了一个能够有效检验大语言模型工具使用鲁棒性与泛化能力的严苛测试场。

使用方法

为利用WildToolBench进行评估，研究者需首先配置Python环境并安装项目依赖。数据集支持通过符合OpenAI格式的API调用各类大语言模型进行推理测试。用户通过设置相应的API密钥，运行指定的评估脚本即可启动模型在基准上的性能测试。随后，通过专门的评估运行器对模型的预测结果进行自动化评分与分析，从而量化模型在应对真实、复杂用户行为模式时的工具使用能力与局限。

背景与挑战

背景概述

随着大语言模型在工具调用能力上的快速发展，评估其在真实、复杂场景下的多轮、多步骤工具使用性能成为关键研究议题。WildToolBench由研究团队于2024年提出，旨在构建一个基于真实用户行为模式的基准测试，以应对现有评测忽略用户交互中不可预测性、灵活性与隐含意图等核心问题。该数据集通过模拟用户在实际对话中表现出的组合任务、隐含意图跨轮次传播及指令动态转换等行为，系统性地检验大语言模型的工具编排与上下文推理能力，为提升模型在开放环境中的智能体鲁棒性提供了重要实证基础。

当前挑战

WildToolBench致力于解决大语言模型在真实世界工具使用场景中的核心挑战，即模型如何有效处理用户行为中固有的不可预测性与复杂性。具体而言，该数据集构建过程中面临三大挑战：一是设计能够覆盖任意任务数量所有可能动作空间的数据生成框架，确保评估的全面性；二是模拟真实多轮对话中隐含意图的跨轮次传播，要求模型具备深度的上下文推理能力；三是捕捉用户指令在任务查询、澄清与闲聊间动态转换的混合模式，迫使模型实时调整其工具调用策略。现有基准往往忽视这些行为特征，导致模型在工具使用上的进展存在虚假性，而WildToolBench通过可控多智能体生成框架，揭示了当前模型在应对真实用户行为时普遍存在的鲁棒性缺陷。

常用场景

经典使用场景

在大型语言模型工具使用能力评估领域，WildToolBench作为一项基于真实用户行为模式构建的基准测试，其经典应用场景聚焦于模拟复杂多变的现实交互环境。该数据集通过捕捉用户对话中隐含的意图、任务组合的拓扑结构以及指令的动态转换，为研究者提供了评估模型在非结构化、多轮次工具调用场景下稳健性的标准化平台。其设计充分考虑了真实世界交互的不可预测性与灵活性，使得评估结果能够更准确地反映模型在实际应用中的表现。

实际应用

在实际应用层面，WildToolBench为开发面向真实用户的对话式AI助手和智能体系统提供了关键的评估工具。例如，在智能客服、个性化推荐系统以及自动化工作流引擎中，模型需要准确理解用户分散在多轮对话中的模糊需求，并灵活协调多个工具完成复杂任务。该数据集能够帮助开发者识别模型在实际部署中的薄弱环节，优化其上下文推理与动态策略调整能力，从而提升终端用户体验与系统可靠性。

衍生相关工作

围绕WildToolBench衍生的经典研究工作主要集中在智能体评估框架与数据生成方法的创新上。受其多智能体可控数据生成框架的启发，后续研究进一步探索了基于真实用户行为模拟的基准构建范式，推动了如ToolAlpaca、ToolBench等数据集的演进。同时，该数据集催生了一系列针对隐含意图理解、工具调用拓扑优化以及对话策略动态调整的算法改进，为提升大型语言模型在开放环境中的工具使用鲁棒性提供了持续的研究动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集