five

API-Bank

收藏
arXiv2023-10-25 更新2024-06-21 收录
下载链接:
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/api-bank
下载链接
链接失效反馈
资源简介:
API-Bank是由阿里巴巴集团开发的综合性基准数据集,专为增强大型语言模型(LLMs)使用外部工具的能力而设计。该数据集包含1888条工具使用对话,涉及2138个API,覆盖1000个不同领域,旨在通过这些数据训练和评估LLMs在规划、检索和调用API方面的能力。数据集的创建过程采用了多代理自动生成方法,显著降低了标注成本。API-Bank的应用领域广泛,旨在解决LLMs在实际应用中有效利用API工具的关键问题,推动AI系统智能集成外部资源以满足人类需求的发展。

API-Bank is a comprehensive benchmark dataset developed by Alibaba Group, specifically designed to enhance the ability of Large Language Models (LLMs) to utilize external tools. This dataset contains 1,888 tool-use dialogues involving 2,138 APIs across 1,000 distinct domains, aiming to train and evaluate LLMs' capabilities in planning, retrieval, and API invocation. The dataset was created using a multi-agent automatic generation approach, which significantly reduces annotation costs. With broad application scenarios, API-Bank targets solving the critical challenge of LLMs effectively leveraging API tools in real-world applications, and advancing the development of intelligent integration of external resources by AI systems to fulfill human needs.
提供机构:
阿里巴巴集团
创建时间:
2023-04-14
搜集汇总
数据集介绍
main_image_url
构建方式
API-Bank数据集的构建,首先通过调研用户需求,确定了工具增强型LLM应具备的三种能力:调用、检索与调用、规划与检索与调用。随后,构建了一个包含73个API工具的可运行评估系统,并针对这三种能力手动标注了314个工具使用对话,共包含753个API调用。为了提高LLM使用工具的能力,构建了一个包含1,888个工具使用对话的训练集,这些对话来自2,138个API,覆盖了1,000个不同的领域。为了解决大规模数据集构建的成本和效率问题,引入了Multi-agent方法,使用LLM自动生成训练数据,显著降低了标注成本。
特点
API-Bank数据集的特点在于其全面性、真实性和多样性。全面性体现在它不仅覆盖了广泛的领域,还包含了各种类型的API,以及单次调用和多轮调用的情况。真实性体现在它模拟了真实世界中的对话场景,并要求LLM在调用API时能够正确处理各种参数和结果。多样性体现在它包含了不同难度级别的API使用对话,能够全面评估LLM的能力。
使用方法
使用API-Bank数据集进行评估时,首先需要将LLM的输出与手动标注的API调用进行比较,以评估API调用的正确性。其次,使用ROUGE-L指标评估LLM的回复质量。在使用API-Bank数据集进行训练时,可以采用Multi-agent方法自动生成训练数据,或者手动标注数据。为了确保训练效果,可以对LLM进行微调,并使用API-Bank数据集进行评估。
背景与挑战
背景概述
API-Bank数据集由阿里巴巴集团、香港科技大学、北京大学和深圳智能强科技有限公司的研究人员共同创建,旨在解决大型语言模型(LLMs)在利用外部工具方面的三个关键问题。该数据集于2023年发布,提供了一个全面的基准,用于评估工具增强型LLMs的性能。API-Bank包含了1,888个工具使用对话,涉及2,138个API,涵盖了1,000个不同的领域。通过这个数据集,研究人员可以评估LLMs在规划、检索和调用API方面的能力,并探索如何提高这些能力。API-Bank对相关领域产生了重要影响,为LLMs工具增强技术的发展提供了新的研究方向和实验平台。
当前挑战
API-Bank数据集面临的主要挑战包括:1) LLMs在利用工具方面的有效性问题,即如何评估LLMs在调用API时的准确性和效率;2) 如何提高LLMs的工具利用能力,包括规划、检索和调用API的能力;3) LLMs在利用工具时遇到的障碍,例如API调用格式错误、输入参数无效、API幻觉等。为了解决这些挑战,API-Bank采用了多智能体数据生成方法,使用LLMs自动生成大规模的训练数据,从而降低标注成本并提高数据质量。此外,API-Bank还通过人工标注的方式构建了包含314个对话和753个API调用的评估系统,以真实地评估LLMs在工具利用方面的能力。这些挑战的解决对于推动LLMs工具增强技术的发展具有重要意义。
常用场景
经典使用场景
API-Bank是一个专为工具增强型大型语言模型(LLMs)设计的全面基准。它旨在解决当前LLMs在利用工具方面的三个关键问题:当前LLMs在利用工具方面的有效性如何?如何提高LLMs利用工具的能力?以及需要克服哪些障碍才能有效地利用工具?为了回答这些问题,API-Bank构建了一个包含73个API工具的运行评估系统,并对314个工具使用对话进行了标注,以评估现有LLMs在计划、检索和调用API方面的能力。此外,API-Bank还构建了一个包含1,888个工具使用对话和2,138个API的综合训练集,用于训练工具增强型LLM Lynx。
衍生相关工作
API-Bank的发布推动了工具增强型LLMs领域的研究进展。基于API-Bank的研究成果,一些相关工作进一步探讨了LLMs在利用工具方面的能力,并提出了新的模型和方法。例如,Toolformer通过让LLMs自己学习使用工具,而ART则通过自动多步推理和工具使用来提高LLMs的能力。这些工作都受到了API-Bank的启发和影响。
数据集最近研究
最新研究方向
API-Bank 数据集的引入标志着工具增强型大型语言模型(LLMs)研究的新篇章。该数据集旨在回答三个关键问题:当前LLMs使用工具的效率如何?如何提高LLMs使用工具的能力?以及LLMs有效利用工具的障碍是什么?API-Bank 包含了一个由73个API工具组成的可运行评估系统,以及314个工具使用对话,其中包含753个API调用,用于评估现有LLMs在规划、检索和调用API方面的能力。此外,API-Bank 还构建了一个包含1888个工具使用对话的训练集,涵盖了2138个API和1000个不同领域。通过使用这个数据集训练的Lynx模型,实验结果表明,GPT-3.5在工具利用方面比GPT-3表现出色,而GPT-4则在规划方面表现出色。然而,仍存在显著的改进空间。这项研究不仅为评估和改进工具增强型LLMs的性能提供了重要资源,还为未来研究指明了方向,以克服LLMs有效利用工具的挑战。
相关研究论文
  • 1
    API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs阿里巴巴集团 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作