API Pack

Name: API Pack
Creator: 麻省理工学院-IBM沃森人工智能实验室
Published: 2024-02-16 21:58:38
License: 暂无描述

arXiv2024-02-16 更新2024-06-21 收录

下载链接：

https://github.com/zguo0525/API-Pack

下载链接

链接失效反馈

官方服务：

资源简介：

API Pack是由麻省理工学院-IBM沃森人工智能实验室创建的多语言数据集，包含超过一百万条指令-API调用对，旨在提升大型语言模型生成API调用的能力。该数据集涵盖10种编程语言，是目前最大的开源指令数据集，用于API调用生成和API意图检测。API Pack通过从四个API中心收集OpenAPI规范文件来构建，每个实例包含输入输出对及API相关信息。该数据集的应用领域主要集中在解决开发者在寻找API调用代码示例时面临的时间消耗问题，通过探索大型语言模型识别适当API端点和基于自然语言提示生成相应API调用的能力，以优化工作流程。

API Pack is a multilingual dataset created by the MIT-IBM Watson AI Lab, which contains over one million instruction-API call pairs. It is designed to enhance the capability of Large Language Models (LLMs) to generate API calls. Covering 10 programming languages, it is currently the largest open-source instruction dataset for API call generation and API intent detection. API Pack is constructed by collecting OpenAPI specification files from four API hubs, with each instance containing input-output pairs and relevant API information. The primary application of this dataset focuses on addressing the time consumption issue that developers face when searching for code examples of API calls. It explores the ability of LLMs to identify appropriate API endpoints and generate corresponding API calls based on natural language prompts, thereby optimizing development workflows.

提供机构：

麻省理工学院-IBM沃森人工智能实验室

创建时间：

2024-02-15

搜集汇总

数据集介绍

构建方式

API Pack数据集的构建方式是通过从四个存储OpenAPI规范文件（OAS文件）的API中心收集数据，包括RapidAPI、APIGurus、Swaggerhub和一个公司的公共API中心。首先，数据预处理阶段对收集到的OAS文件进行过滤和提取，保留包含有效端点的文件，并提取API和端点相关信息。其次，创建API数据库（API DB），以JSON格式存储每个端点的详细信息以及API调用示例和编程语言标识。接着，生成指令阶段利用LLM生成高质量的指令示例，并通过人工和LLM进行筛选和优化。最后，数据验证阶段确保API调用示例的有效性，并通过LLM评估指令质量，选择最佳指令进行训练。

特点

API Pack数据集的特点包括：1) 规模庞大：包含超过一百万个指令-API调用对，是目前最大的开源指令数据集之一。2) 多语言：涵盖10种编程语言，允许评估跨语言技能迁移。3) 多样性：包含来自现实世界API和用例的示例，有助于评估泛化能力。4) API调用意图检测：可以识别适当的API端点来解决自然语言提示中的任务。

使用方法

使用API Pack数据集的方法包括：1) 指令微调：将LLM在API Pack数据集上进行微调，以提高API调用生成能力。2) 零样本推理：利用LLM在API Pack数据集上进行预训练，进行零样本API调用生成。3) 少样本学习：利用API Pack数据集生成指令示例，进行少样本API调用生成。4) 跨语言泛化：使用API Pack数据集在一种语言上进行微调，并结合少量其他语言数据，进行跨语言API调用生成。

背景与挑战

背景概述

API Pack 是一个旨在提升大型语言模型 (LLM) API 调用生成能力的多语言数据集。该数据集由超过一百万个指令-API 调用对组成，涵盖了 10 种编程语言。API Pack 的创建旨在解决开发者寻找 API 调用代码示例的繁琐过程，通过探索 LLM 的能力来识别合适的 API 端点并根据自然语言提示生成相应的 API 调用。API Pack 的创建时间是在 2024 年 2 月 16 日，主要研究人员来自麻省理工学院和 IBM 研究院。API Pack 对相关领域的影响力主要体现在以下几个方面：首先，它是迄今为止最大的开源指令数据集，为 API 调用生成和 API 调用意图检测提供了丰富的数据基础；其次，API Pack 的多语言特性使得跨语言 API 调用生成成为可能，为跨语言代码生成研究提供了重要的数据资源；最后，API Pack 的研究成果表明，通过在更大规模的 API 数据上进行微调，可以显著提升模型对新 API 数据的泛化能力。

当前挑战

API Pack 数据集目前面临的挑战主要包括：1) 如何在没有大量多语言数据的情况下，使模型能够泛化到新的编程语言；2) 如何构建一个包含多个 API 调用的数据集，以更好地模拟现实世界中软件开发的复杂性。

常用场景

经典使用场景

API Pack 数据集旨在推动大型语言模型在 API 调用生成方面的能力。通过包含超过一百万个指令-API 调用对的庞大语料库，该数据集为模型提供了丰富的训练资源，使其能够更好地理解和执行基于自然语言描述的 API 调用任务。例如，开发人员可以使用 API Pack 数据集训练模型，使其能够根据自然语言指令自动生成相应的 API 调用代码，从而提高软件开发的效率和质量。

衍生相关工作

API Pack 数据集的发布推动了相关领域的研究进展。例如，研究人员可以利用 API Pack 数据集研究大型语言模型在 API 调用生成方面的性能和局限性，并探索改进模型性能的方法。此外，API Pack 数据集还可以用于构建新的编程工具和平台，为开发人员提供更便捷和高效的软件开发工具。

数据集最近研究