API-BLEND
收藏arXiv2024-05-20 更新2024-06-21 收录
下载链接:
https://github.com/IBM/API-BLEND
下载链接
链接失效反馈官方服务:
资源简介:
API-BLEND是一个为训练和系统测试工具增强型大型语言模型(LLMs)设计的大型语料库。该数据集模仿了涉及API任务的现实世界场景,如API/工具检测、槽填充和检测到的API的排序。API-BLEND由10个数据集组成,其中5个用于训练,5个用于域外测试,涵盖了语义解析、对话和数字助手等多个领域。通过混合方法生成数据,API-BLEND旨在解决现有数据集在API任务数据稀缺的问题,特别是序列化任务,并展示出比其他现有方法更好的域外泛化性能。
API-BLEND is a large-scale corpus designed for training and systematically testing tool-augmented Large Language Models (LLMs). It recreates real-world scenarios involving API-related tasks, such as API/tool detection, slot filling, and ranking of detected APIs. Comprising 10 individual datasets, API-BLEND includes 5 datasets for training and 5 for out-of-domain testing, covering multiple domains including semantic parsing, dialogue systems, and digital assistants. Using a hybrid data generation approach, API-BLEND aims to address the data scarcity issue of existing datasets for API-related tasks, particularly sequential tasks, and demonstrates better out-of-domain generalization performance compared to other existing methods.
提供机构:
IBM研究院
创建时间:
2024-02-24
搜集汇总
数据集介绍

构建方式
API-BLEND 数据集的构建采用了混合方法,包括利用语言模型辅助生成、基于语法规则转换以及使用现成的数据集。首先,研究者使用了 SeqSGD 和 SeqMultiWoz 数据集,通过提示预训练的 FLAN-T5-XXL 模型将 API 转换为自然语言请求,并生成总结性的陈述。其次,他们将 MixATIS 和 MixSNIPS 数据集转换为 SeqATIS 和 SeqSNIPS 数据集,通过解析 IOB 标记来生成 API 参数名称和值。此外,他们还使用了 SeqToolQA 数据集,该数据集通过抽象 ToolQA 数据集中的模板问题并转换为相应的 API 序列来构建。最后,他们还使用了 ToolBench、ToolLLM 和 API Bank 等现成的数据集,用于评估模型在域外数据上的表现。
使用方法
API-BLEND 数据集可用于训练和评估工具增强型语言模型 (LLM)。在训练过程中,研究人员可以使用数据集中的实例来训练模型识别、填充和排序 API。在评估过程中,研究人员可以使用数据集中的测试集来评估模型在域内和域外数据上的表现。此外,数据集还提供了 5 个不同的域外数据集,用于评估模型在未见过的数据上的泛化能力。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)在文本生成、摘要、数学推理等自然语言理解(NLU)任务中展现出卓越的能力。然而,当面对需要调用外部工具或应用程序编程接口(APIs)的高级任务时,例如预订酒店、预订餐桌或自动化招聘任务,LLMs的局限性就凸显出来了。为了解决这一挑战,研究者们开发了许多数据集,以训练和评估能够调用API的LLMs。API-BLEND数据集正是为了应对这一挑战而创建的,它由IBM研究院的Kinjal Basu等人于2024年5月提出。API-BLEND是一个大规模的语料库,旨在训练和系统测试工具增强的LLMs。该数据集模仿了涉及API任务的真实世界场景,例如API/工具检测、插槽填充和检测到的API的排序。API-BLEND的创建旨在解决现有数据集在多样性、任务覆盖范围和泛化能力方面的不足。API-BLEND数据集的发布为训练和评估工具增强的LLMs提供了一个全面的平台,并对相关领域产生了重要的影响。
当前挑战
尽管API-BLEND数据集在解决LLMs调用API的挑战方面取得了显著进展,但仍存在一些挑战。首先,数据集的构建过程中,如何确保数据的质量和多样性是一个关键问题。其次,API-BLEND数据集主要关注英语API命令,未来需要开发多语言的API-BLEND数据集,以支持更多语言的应用。此外,API-BLEND数据集没有处理API代理与环境交互的情况,未来可以考虑探索具有实体代理的设置,其中API调用会对现实环境产生影响。最后,LLMs在处理插槽值和参数名称时,可能会出现未归一化的插槽值和语义相似的插槽名称等问题,需要进一步研究和改进。
常用场景
经典使用场景
API-BLEND 数据集作为训练和评估工具增强型大型语言模型(LLM)的全面语料库,其经典使用场景包括 API 检测、槽填充和 API 序列化。API 检测任务要求模型根据用户查询正确选择要调用的 API;槽填充任务则要求模型在给定 API 的情况下,从用户的话语中提取参数或请求更多信息以填充检测到的 API 的必需参数;而 API 序列化任务则要求模型根据指定任务的话语,写出完成该任务所需调用的 API 序列。
解决学术问题
API-BLEND 数据集解决了现有数据集中工具/API 调用数据稀缺的问题,并着重于 API 序列化任务,这对于训练模型以执行更高级的任务至关重要。此外,该数据集还包含了来自不同领域的 API 数据,从而提高了模型的泛化能力,使其能够更好地应对未在训练中遇到的 API。
实际应用
API-BLEND 数据集在实际应用中可用于训练和评估工具增强型 LLM,使其能够更好地理解和执行涉及 API 的复杂任务,例如预订酒店、预订餐桌和自动化招聘任务。该数据集还可以用于开发智能助手、聊天机器人和其他需要与 API 交互的应用程序。
数据集最近研究
最新研究方向
随着大型语言模型(LLM)在自然语言理解(NLU)任务中展现出卓越的能力,例如文本生成、摘要和数学推理,研究者们越来越关注如何使LLM能够有效地调用外部应用程序接口(API)或工具来完成高级任务。API-BLEND数据集的提出正是为了满足这一需求,它是一个包含10个数据集的综合性语料库,用于训练和评估工具增强型LLM。这些数据集模拟了现实世界中的API任务,例如API/工具检测、槽填充和检测到的API的排序。API-BLEND数据集采用了混合方法生成数据,包括LLM辅助生成和基于语法规则的方法,从而克服了合成数据缺乏多样性和领域相关性的问题。此外,API-BLEND数据集还包含了来自不同领域的真实世界数据,例如语义解析、对话和数字助理,从而提高了API数据的多样性。研究结果表明,在API-BLEND数据集上训练的模型在泛化能力方面显著优于其他工具增强型LLM,尤其是在处理域外数据时。
相关研究论文
- 1API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMsIBM研究院 · 2024年
以上内容由遇见数据集搜集并总结生成



