MTU-Bench

Name: MTU-Bench
Creator: 阿里巴巴集团, 中国科学院大学, 滑铁卢大学
Published: 2024-10-15 23:46:17
License: 暂无描述

arXiv2024-10-15 更新2024-10-17 收录

下载链接：

https://github.com/MTU-Bench-Team/MTU-Bench.git

下载链接

链接失效反馈

官方服务：

资源简介：

MTU-Bench是由阿里巴巴集团、中国科学院大学和滑铁卢大学联合创建的多粒度工具使用基准数据集，旨在评估大型语言模型在工具使用方面的能力。该数据集包含159,061条对话，涵盖了单轮单工具、单轮多工具、多轮单工具、多轮多工具以及分布外任务等多种场景。数据集通过转换现有高质量数据集来模拟真实世界的工具使用场景，并提出了一个名为MTU-Instruct的指令数据集以增强现有LLMs的工具使用能力。MTU-Bench的创建过程包括数据收集、工具创建、工具聚类、工具文档生成和工具使用数据合成等多个步骤。该数据集主要应用于提升大型语言模型在实际应用中的工具使用能力和解决复杂的工具调用问题。

MTU-Bench is a multi-granularity tool use benchmark dataset jointly created by Alibaba Group, University of Chinese Academy of Sciences, and University of Waterloo, aiming to evaluate the tool-use capabilities of large language models (LLMs). This dataset contains 159,061 dialogues, covering various scenarios including single-turn single-tool, single-turn multi-tool, multi-turn single-tool, multi-turn multi-tool, and out-of-distribution (OOD) tasks. By converting existing high-quality datasets, it simulates real-world tool use scenarios, and proposes an instruction dataset named MTU-Instruct to enhance the tool-use capabilities of existing LLMs. The development process of MTU-Bench comprises multiple steps such as data collection, tool creation, tool clustering, tool documentation generation, and tool use data synthesis. This dataset is primarily applied to improve the tool-use abilities of large language models in real-world applications and solve complex tool invocation problems.

提供机构：

阿里巴巴集团, 中国科学院大学, 滑铁卢大学

创建时间：

2024-10-15

搜集汇总

数据集介绍

构建方式

MTU-Bench的构建方式体现了对现有高质量数据集的转化与模拟，以真实世界工具使用场景为目标。首先，从多个开源任务导向对话数据集中收集真实用户指令，这些数据集涵盖了从航班预订到电影票务等多种任务。接着，通过语法转换或GPT-4合成的方式创建工具，并根据工具的相似性进行聚类。随后，利用GPT-4生成工具文档，详细描述每个工具的使用方法、参数及其返回值。最后，结合对话历史和工具文档，使用GPT-4合成工具使用样本，包括思考过程、工具调用、输入参数和观察结果，并通过GPT-4和人工检查进行质量验证，确保数据的高质量和一致性。

特点

MTU-Bench的一个显著特点是其多粒度性，涵盖了从单轮单工具到多轮多工具的多种工具使用场景，包括单轮单工具、单轮多工具、多轮单工具、多轮多工具以及分布外任务。此外，该数据集的所有评估指标均基于预测结果和真实值，无需依赖GPT或人工评估，从而降低了评估成本并提高了评估的客观性。数据集还特别设计了指令数据集MTU-Instruct，以增强现有大型语言模型在真实世界工具使用场景中的能力。

使用方法

MTU-Bench的使用方法主要包括训练和评估两个阶段。在训练阶段，可以使用MTU-Instruct数据集对现有的大型语言模型进行微调，以提升其在工具使用方面的能力。在评估阶段，MTU-Eval框架提供了多种细粒度的评估指标，如工具选择准确率、参数选择准确率、成功率、轮次成功率、任务进程率、工具数量准确率和工具顺序准确率等，用于全面评估模型在不同工具使用场景中的表现。通过这些指标，研究人员和开发者可以深入了解模型在工具使用方面的强项和弱项，从而进行针对性的改进和优化。

背景与挑战

背景概述

随着大型语言模型（LLMs）在推理和决策能力上的显著提升，以及与用户进行自然对话的能力，工具使用基准数据集的需求日益增长。然而，现有数据集在评估场景的多样性和评估成本方面存在局限性。为了解决这些问题，阿里巴巴集团及其合作机构提出了一种多粒度的工具使用基准，名为MTU-Bench。该基准涵盖了五种工具使用场景，并基于预测结果和真实数据进行评估，无需依赖GPT或人工评估指标。MTU-Bench通过转换现有高质量数据集来模拟真实世界的工具使用场景，并提出了一个名为MTU-Instruct的数据集，以增强现有LLMs的工具使用能力。

当前挑战

MTU-Bench在构建过程中面临多项挑战。首先，如何确保评估场景的多样性，涵盖单轮单工具、单轮多工具、多轮单工具、多轮多工具以及分布外任务等多种场景。其次，如何在评估过程中降低成本，避免依赖GPT等高成本的评估方法。此外，数据集的构建需要确保高质量和多样性，以真实模拟复杂多变的工具使用环境。最后，评估指标的设计需要全面且细致，能够准确反映LLMs在工具使用中的表现，包括工具选择、参数选择、对话成功率等多个维度。

常用场景

经典使用场景

MTU-Bench 的经典使用场景在于评估大型语言模型（LLMs）在多粒度工具使用任务中的表现。该数据集涵盖了五种工具使用场景，包括单轮单工具、单轮多工具、多轮单工具、多轮多工具以及分布外任务。通过这些场景，研究人员可以全面评估模型在不同复杂度任务中的工具使用能力，从而推动工具学习领域的发展。

解决学术问题

MTU-Bench 解决了现有工具使用数据集在评估场景不足和评估成本高昂的问题。它通过多粒度的工具使用场景和自动化的评估指标，提供了更为全面和高效的评估框架。这不仅有助于学术界深入研究大型语言模型在工具使用中的表现，还为实际应用中的模型优化提供了有力的支持。

衍生相关工作

MTU-Bench 的提出催生了一系列相关研究工作，包括对工具使用能力的深入分析、工具使用任务的自动化生成方法以及基于该数据集的模型优化策略。此外，MTU-Bench 还促进了工具使用领域内不同数据集和评估方法的比较研究，推动了该领域的标准化和规范化发展。

以上内容由遇见数据集搜集并总结生成