NESTFUL

Name: NESTFUL
Creator: IBM研究院
Published: 2024-09-05 01:53:24
License: 暂无描述

arXiv2024-09-05 更新2024-09-11 收录

下载链接：

http://arxiv.org/abs/2409.03797v1

下载链接

链接失效反馈

官方服务：

资源简介：

NESTFUL数据集由IBM研究院创建，旨在评估大型语言模型（LLMs）在嵌套API调用序列中的能力。该数据集包含300个高质量的人工标注样本，分为可执行和不可执行两类。可执行样本通过爬取Rapid-APIs手动筛选，而不可执行样本则由人工从使用LLM生成的合成数据中挑选。数据集的创建过程强调了API调用的嵌套序列，旨在解决复杂的多步骤任务，特别是在需要多个API协同工作的实际应用场景中。

提供机构：

IBM研究院

创建时间：

2024-09-05

搜集汇总

数据集介绍

构建方式

NESTFUL数据集通过人工标注和合成数据生成的方式构建。其中，可执行的样本通过手动爬取Rapid-APIs网站上的API信息进行收集，而非可执行的样本则由人类标注者从使用最先进LLM生成的合成数据中挑选。数据集包含300个人工标注的高质量示例，分为可执行和非可执行API调用两个类别。

特点

NESTFUL数据集的特点在于其专注于评估LLMs在嵌套序列API调用方面的能力。该数据集包含超过300个高质量的示例，这些示例涵盖了从软件助手到诊断系统等多个领域的应用。数据集分为可执行和非可执行API调用两个类别，旨在评估LLMs在处理真实世界多步问题时的能力。

使用方法

NESTFUL数据集的使用方法包括评估LLMs在嵌套序列API调用方面的能力。研究人员可以使用该数据集来测试LLMs在各种应用场景下的表现，并评估其在处理真实世界多步问题时的能力。数据集提供了一个公开的GitHub仓库，方便研究人员下载和使用。

背景与挑战

背景概述

随着大型语言模型（LLMs）在自主智能体应用中的广泛应用，这些模型在处理复杂现实世界任务方面的能力日益凸显。这些智能体工作流程的核心依赖于LLMs来规划和执行一系列工具和外部应用程序编程接口（APIs）的调用，以满足用户的需求。尽管现有的基准和排行榜已经出现，用于评估LLMs在工具和API使用方面的能力，但大多数评估仅追踪单个或多个孤立的API调用能力。NESTFUL数据集的提出，旨在填补这一空白，它是一个用于评估LLMs在嵌套API调用序列上的能力的基准。该数据集由IBM Research和Georgia Institute of Technology的研究人员创建，包含300个人工标注的样本，分为可执行和不可执行两种类型。NESTFUL的发布对相关领域产生了重要影响，为LLMs在API调用能力方面的研究提供了新的方向和挑战。

当前挑战

NESTFUL数据集面临的挑战主要包括数据类型和所需参数的遵守、变量分配以及隐式API调用。在API规范中，所有参数的数据类型都有明确的定义，LLMs必须遵守这些格式要求，尤其是在嵌套调用的情况下。此外，LLMs需要正确地分配变量，以处理并行函数调用，这是现实世界应用中常见的场景。最后，隐式API调用要求LLMs在用户查询中没有明确提及的情况下，能够识别并调用必要的API，这增加了数据集的复杂性。NESTFUL数据集通过这些挑战，为LLMs在API调用能力方面的研究提供了新的方向和测试标准，推动了该领域的发展。

常用场景

经典使用场景

NESTFUL数据集是一个用于评估大型语言模型（LLMs）在嵌套API调用序列上的能力的基准。它包括300个人工注释的样本，分为可执行和非可执行两类。可执行样本是通过爬取Rapid-APIs手动编辑的，而非可执行样本是通过使用LLM合成数据并由人工注释者挑选的。NESTFUL旨在评估LLMs在嵌套API调用序列上的能力，即一个API调用的输出被传递给后续调用的序列。

衍生相关工作

NESTFUL数据集的发布促进了相关领域的研究和发展。例如，一些研究团队开始利用NESTFUL数据集来训练和评估新的LLMs模型，以改进其在嵌套API调用序列上的能力。此外，一些研究团队也开始探索如何将NESTFUL数据集与其他数据集和评估基准结合起来，以构建更全面和准确的评估工具。这些相关工作不仅推动了LLMs在API调用序列评估方面的发展，也为其他相关领域的研究提供了新的思路和方向。

数据集最近研究