API-Bank

Name: API-Bank
Creator: 阿里巴巴集团
Published: 2023-04-14T22:05:32+08:00

arXiv2023-10-25 更新2024-06-21 收录

人工智能

API集成

数据链接：

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/api-bank 数据链接链接失效反馈

官方服务：

资源简介：

API-Bank是由阿里巴巴集团开发的综合性基准数据集，专为增强大型语言模型（LLMs）使用外部工具的能力而设计。该数据集包含1888条工具使用对话，涉及2138个API，覆盖1000个不同领域，旨在通过这些数据训练和评估LLMs在规划、检索和调用API方面的能力。数据集的创建过程采用了多代理自动生成方法，显著降低了标注成本。API-Bank的应用领域广泛，旨在解决LLMs在实际应用中有效利用API工具的关键问题，推动AI系统智能集成外部资源以满足人类需求的发展。

API-Bank is a comprehensive benchmark dataset developed by Alibaba Group, specifically designed to enhance the external tool utilization capabilities of large language models (LLMs). This dataset includes 1,888 tool-use conversations involving 2,138 APIs across 1,000 distinct domains. Its core objective is to train and evaluate LLMs' competencies in API planning, retrieval, and invocation. The dataset was constructed using a multi-agent automatic generation approach, which significantly reduces annotation costs. API-Bank has broad application scenarios, aiming to address the critical challenge of enabling LLMs to effectively leverage API tools in real-world deployments, and advancing the development of AI systems that intelligently integrate external resources to fulfill human needs.

提供机构：

阿里巴巴集团

创建时间：

2023-04-14

搜集汇总

数据集介绍

构建方式

API-Bank数据集的构建，首先通过调研用户需求，确定了工具增强型LLM应具备的三种能力：调用、检索与调用、规划与检索与调用。随后，构建了一个包含73个API工具的可运行评估系统，并针对这三种能力手动标注了314个工具使用对话，共包含753个API调用。为了提高LLM使用工具的能力，构建了一个包含1,888个工具使用对话的训练集，这些对话来自2,138个API，覆盖了1,000个不同的领域。为了解决大规模数据集构建的成本和效率问题，引入了Multi-agent方法，使用LLM自动生成训练数据，显著降低了标注成本。

特点

API-Bank数据集的特点在于其全面性、真实性和多样性。全面性体现在它不仅覆盖了广泛的领域，还包含了各种类型的API，以及单次调用和多轮调用的情况。真实性体现在它模拟了真实世界中的对话场景，并要求LLM在调用API时能够正确处理各种参数和结果。多样性体现在它包含了不同难度级别的API使用对话，能够全面评估LLM的能力。

使用方法

使用API-Bank数据集进行评估时，首先需要将LLM的输出与手动标注的API调用进行比较，以评估API调用的正确性。其次，使用ROUGE-L指标评估LLM的回复质量。在使用API-Bank数据集进行训练时，可以采用Multi-agent方法自动生成训练数据，或者手动标注数据。为了确保训练效果，可以对LLM进行微调，并使用API-Bank数据集进行评估。

背景与挑战

背景概述

API-Bank数据集由阿里巴巴集团、香港科技大学、北京大学和深圳智能强科技有限公司的研究人员共同创建，旨在解决大型语言模型（LLMs）在利用外部工具方面的三个关键问题。该数据集于2023年发布，提供了一个全面的基准，用于评估工具增强型LLMs的性能。API-Bank包含了1,888个工具使用对话，涉及2,138个API，涵盖了1,000个不同的领域。通过这个数据集，研究人员可以评估LLMs在规划、检索和调用API方面的能力，并探索如何提高这些能力。API-Bank对相关领域产生了重要影响，为LLMs工具增强技术的发展提供了新的研究方向和实验平台。

当前挑战

API-Bank数据集面临的主要挑战包括：1) LLMs在利用工具方面的有效性问题，即如何评估LLMs在调用API时的准确性和效率；2) 如何提高LLMs的工具利用能力，包括规划、检索和调用API的能力；3) LLMs在利用工具时遇到的障碍，例如API调用格式错误、输入参数无效、API幻觉等。为了解决这些挑战，API-Bank采用了多智能体数据生成方法，使用LLMs自动生成大规模的训练数据，从而降低标注成本并提高数据质量。此外，API-Bank还通过人工标注的方式构建了包含314个对话和753个API调用的评估系统，以真实地评估LLMs在工具利用方面的能力。这些挑战的解决对于推动LLMs工具增强技术的发展具有重要意义。

常用场景

经典使用场景

API-Bank是一个专为工具增强型大型语言模型（LLMs）设计的全面基准。它旨在解决当前LLMs在利用工具方面的三个关键问题：当前LLMs在利用工具方面的有效性如何？如何提高LLMs利用工具的能力？以及需要克服哪些障碍才能有效地利用工具？为了回答这些问题，API-Bank构建了一个包含73个API工具的运行评估系统，并对314个工具使用对话进行了标注，以评估现有LLMs在计划、检索和调用API方面的能力。此外，API-Bank还构建了一个包含1,888个工具使用对话和2,138个API的综合训练集，用于训练工具增强型LLM Lynx。

衍生相关工作

API-Bank的发布推动了工具增强型LLMs领域的研究进展。基于API-Bank的研究成果，一些相关工作进一步探讨了LLMs在利用工具方面的能力，并提出了新的模型和方法。例如，Toolformer通过让LLMs自己学习使用工具，而ART则通过自动多步推理和工具使用来提高LLMs的能力。这些工作都受到了API-Bank的启发和影响。

数据集最近研究

API-Bank

资源简介：

相关数据集