UltraTool

arXiv2024-02-16 更新2024-07-31 收录

下载链接：

https://github.com/JoeYing1019/UltraTool

下载链接

链接失效反馈

官方服务：

资源简介：

UltraTool是一个新颖的基准，旨在提升和评估LLMs在现实世界场景中工具利用的能力。它专注于使用工具的全过程——从规划和创建到在复杂任务中应用它们。它强调现实世界的复杂性，要求精确的多步骤规划以有效解决问题。UltraTool的一个关键特点是其对自然语言规划的独立评估，这发生在工具使用之前，通过规划中间步骤简化了任务解决。

UltraTool is a novel benchmark designed to enhance and evaluate the tool-use capabilities of Large Language Models (LLMs) in real-world scenarios. It focuses on the entire pipeline of tool usage, ranging from planning and creation to their application in complex tasks. It emphasizes real-world complexities, requiring precise multi-step planning to solve problems effectively. A key feature of UltraTool is its independent evaluation of natural language planning, which occurs prior to tool utilization and simplifies task resolution by decomposing problems into intermediate planning steps.

创建时间：

2024-01-31

原始信息汇总

UltraTool 数据集概述

简介

UltraTool 是一个用于评估大型语言模型（LLMs）在真实世界复杂场景中工具使用能力的新型基准。该基准强调从规划、创建到应用工具的全过程，并着重于真实世界的复杂性，要求进行准确的多步骤规划以有效解决问题。UltraTool 的一个关键特点是独立评估自然语言规划，这发生在工具使用之前，并通过规划中间步骤来简化任务解决。

数据结构

数据集分为中文和英文两个版本，每个版本包含以下内容：

example/: 少样本示例用于推理。
test_set/: 测试集。
test.json: 用于构建测试集的测试数据。
dev.json: 可选的开发集。

更新记录

2024.03.12: 发布开源 LLMs 的推理代码。
2024.03.04: 发布评估代码、GPT-3.5 和 GPT-4 的推理代码及预测结果。
2024.01.31: 发布 UltraTool 数据集，评估代码即将发布。
2023.01.31: 论文可在 ArXiv 上获取。

快速开始

准备工作

python $ git clone https://github.com/JoeYing1019/UltraTool.git $ cd UltraTool $ pip install requirements.txt

推理

闭源 LLMs

提供 GPT-3.5 和 GPT-4 的推理代码。

开源 LLMs

以 ChatGLM3 为例，说明评估过程。

评估

规划

依赖 GPT-4 进行评估。

工具创建

依赖 GPT-4 进行评估，并需要额外的后处理步骤。

工具创建意识

评估 GPT-3.5 和 GPT-4。

工具使用意识

评估 GPT-3.5 和 GPT-4。

工具选择

评估 GPT-3.5 和 GPT-4。

工具使用

评估 GPT-3.5 和 GPT-4。

引用

如果您的研究中使用了本项目，请引用以下论文：

@misc{huang2024planning, title={Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios}, author={Shijue Huang and Wanjun Zhong and Jianqiao Lu and Qi Zhu and Jiahui Gao and Weiwen Liu and Yutai Hou and Xingshan Zeng and Yasheng Wang and Lifeng Shang and Xin Jiang and Ruifeng Xu and Qun Liu}, year={2024}, eprint={2401.17167}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在大型语言模型工具利用评估领域，UltraTool的构建过程体现了对现实世界复杂性的深刻洞察。该数据集以真实、复杂的用户查询为起点，通过多领域专家协作，收集了涵盖22个不同领域的原始查询。为确保查询的多样性与挑战性，研究团队利用GPT-4对原始查询进行泛化与复杂化处理，随后合并形成初始查询集合。构建的核心环节在于解决方案的自动化标注，采用GPT-4生成初始的树状结构自然语言计划，该计划独立于预定义工具集，专注于任务分解。随后，系统评估现有工具集的完备性，并在必要时创建新工具，继而基于完整的工具集对计划进行精炼，并标注每个步骤对应的工具调用信息，包括工具选择与参数填充。最终，所有样本均经过专家团队的严格人工精炼，以消除冗余步骤、修正逻辑、确保工具选择的恰当性及参数来源的清晰性，从而保障了数据的高质量与可靠性。

使用方法

UltraTool旨在系统评估大型语言模型在复杂现实场景下的综合工具利用能力。使用者可依据其六个评估维度构建相应的测试集。在规划评估中，模型需根据用户查询生成层次化的自然语言计划。在工具创建评估中，模型需判断现有工具集是否充足，并为不足的步骤创建符合规范的新工具。在工具使用评估中，模型需逐步完成使用意识判断、从可能包含干扰项的扩展工具集中选择合适工具，以及为选定工具生成具体参数。评估采用多维度的量化指标：对于规划和工具创建，采用基于LLM评判者的多维点评估方法，从准确性、完整性等多个角度打分；对于工具创建意识、使用意识及工具选择，采用基于键值对的准确率；对于工具调用，则采用基于键值对的编辑距离，以兼容参数值的多种合理表达形式。评估可在全局（整个样本）或局部（单个步骤）层面进行，为模型能力提供了细致入微的剖析。

背景与挑战

背景概述

在大型语言模型作为工具代理应用于现实世界复杂场景的背景下，哈尔滨工业大学（深圳）与华为技术有限公司的研究团队于2024年共同提出了UltraTool基准数据集。该数据集旨在全面评估大语言模型在工具利用方面的综合能力，核心研究问题聚焦于模型在复杂现实任务中对工具进行规划、创建与使用的全过程。UltraTool涵盖了22个多样化领域，包含5,824个样本与2,032个工具，其构建基于真实世界的高复杂度查询，突破了以往基准对预定义工具集的依赖，通过引入自然语言规划与高级工具创建能力的独立评估，为相关领域提供了更为精细和贴近实际应用场景的评估视角，对推动智能体工具学习与复杂任务解决的研究具有显著影响力。

当前挑战

UltraTool致力于解决大语言模型在复杂现实场景中综合工具利用能力评估的挑战，其核心在于对规划、工具创建与使用这三大环节进行六维度的精细化测评。构建过程中的主要挑战体现在确保查询的真实性与复杂性：需要跨领域专家协作，收集并人工审核反映真实需求的高复杂度查询，同时利用大模型进行泛化与复杂化处理以增强数据多样性。另一挑战在于解决方案标注的自动化与质量保障：需设计多步骤流程，利用大模型自动生成树状结构计划、创建缺失工具、标注工具调用信息，并最终进行耗时的人工精炼与工具合并，以确保数据逻辑的连贯性、工具的通用性以及整体样本的高质量标准。

常用场景

经典使用场景

在大型语言模型工具利用研究领域，UltraTool数据集被广泛用于评估模型在复杂现实场景下的综合工具利用能力。该数据集通过涵盖规划、工具创建与使用三个核心维度，为研究者提供了一个全面衡量模型在真实多步骤任务中表现的标准平台。其经典应用场景包括测试模型如何将复杂用户查询分解为层次化计划，并在此过程中动态判断现有工具的充足性，必要时创造新工具以完成特定子任务，从而模拟了智能体在开放环境中的自适应问题解决过程。

解决学术问题

UltraTool主要解决了以往工具利用基准测试中存在的评估维度单一、查询过于简化以及过度依赖预定义工具集等学术问题。该数据集通过引入自然语言规划评估和高级工具创建能力，突破了传统基准仅关注工具使用的局限，使得研究者能够更细致地分析模型在任务分解、资源适配和创新性工具设计方面的潜力。其意义在于推动了工具学习领域向更全面、更贴近实际应用场景的评估范式转变，为理解模型在复杂环境下的推理与执行能力提供了关键实证基础。

实际应用

在实际应用层面，UltraTool为开发能够处理复杂跨领域任务的智能助手系统提供了重要的评估与优化依据。例如，在智能客服、自动化工作流编排和跨平台服务集成等场景中，系统需要理解用户的多层次需求，动态组合或创建合适的工具接口来完成订票、日程管理、文件处理等复合操作。该数据集通过覆盖22个真实领域和超过2000种工具，能够有效检验智能体在应对多样化、高复杂度用户请求时的鲁棒性与实用性，为产业界构建可靠的工具增强型AI系统提供了标准化测试环境。

数据集最近研究