five

NESTFUL

收藏
arXiv2024-09-05 更新2024-09-11 收录
下载链接:
http://arxiv.org/abs/2409.03797v1
下载链接
链接失效反馈
官方服务:
资源简介:
NESTFUL数据集由IBM研究院创建,旨在评估大型语言模型(LLMs)在嵌套API调用序列中的能力。该数据集包含300个高质量的人工标注样本,分为可执行和不可执行两类。可执行样本通过爬取Rapid-APIs手动筛选,而不可执行样本则由人工从使用LLM生成的合成数据中挑选。数据集的创建过程强调了API调用的嵌套序列,旨在解决复杂的多步骤任务,特别是在需要多个API协同工作的实际应用场景中。
提供机构:
IBM研究院
创建时间:
2024-09-05
搜集汇总
数据集介绍
main_image_url
构建方式
NESTFUL数据集通过人工标注和合成数据生成的方式构建。其中,可执行的样本通过手动爬取Rapid-APIs网站上的API信息进行收集,而非可执行的样本则由人类标注者从使用最先进LLM生成的合成数据中挑选。数据集包含300个人工标注的高质量示例,分为可执行和非可执行API调用两个类别。
特点
NESTFUL数据集的特点在于其专注于评估LLMs在嵌套序列API调用方面的能力。该数据集包含超过300个高质量的示例,这些示例涵盖了从软件助手到诊断系统等多个领域的应用。数据集分为可执行和非可执行API调用两个类别,旨在评估LLMs在处理真实世界多步问题时的能力。
使用方法
NESTFUL数据集的使用方法包括评估LLMs在嵌套序列API调用方面的能力。研究人员可以使用该数据集来测试LLMs在各种应用场景下的表现,并评估其在处理真实世界多步问题时的能力。数据集提供了一个公开的GitHub仓库,方便研究人员下载和使用。
背景与挑战
背景概述
随着大型语言模型(LLMs)在自主智能体应用中的广泛应用,这些模型在处理复杂现实世界任务方面的能力日益凸显。这些智能体工作流程的核心依赖于LLMs来规划和执行一系列工具和外部应用程序编程接口(APIs)的调用,以满足用户的需求。尽管现有的基准和排行榜已经出现,用于评估LLMs在工具和API使用方面的能力,但大多数评估仅追踪单个或多个孤立的API调用能力。NESTFUL数据集的提出,旨在填补这一空白,它是一个用于评估LLMs在嵌套API调用序列上的能力的基准。该数据集由IBM Research和Georgia Institute of Technology的研究人员创建,包含300个人工标注的样本,分为可执行和不可执行两种类型。NESTFUL的发布对相关领域产生了重要影响,为LLMs在API调用能力方面的研究提供了新的方向和挑战。
当前挑战
NESTFUL数据集面临的挑战主要包括数据类型和所需参数的遵守、变量分配以及隐式API调用。在API规范中,所有参数的数据类型都有明确的定义,LLMs必须遵守这些格式要求,尤其是在嵌套调用的情况下。此外,LLMs需要正确地分配变量,以处理并行函数调用,这是现实世界应用中常见的场景。最后,隐式API调用要求LLMs在用户查询中没有明确提及的情况下,能够识别并调用必要的API,这增加了数据集的复杂性。NESTFUL数据集通过这些挑战,为LLMs在API调用能力方面的研究提供了新的方向和测试标准,推动了该领域的发展。
常用场景
经典使用场景
NESTFUL数据集是一个用于评估大型语言模型(LLMs)在嵌套API调用序列上的能力的基准。它包括300个人工注释的样本,分为可执行和非可执行两类。可执行样本是通过爬取Rapid-APIs手动编辑的,而非可执行样本是通过使用LLM合成数据并由人工注释者挑选的。NESTFUL旨在评估LLMs在嵌套API调用序列上的能力,即一个API调用的输出被传递给后续调用的序列。
衍生相关工作
NESTFUL数据集的发布促进了相关领域的研究和发展。例如,一些研究团队开始利用NESTFUL数据集来训练和评估新的LLMs模型,以改进其在嵌套API调用序列上的能力。此外,一些研究团队也开始探索如何将NESTFUL数据集与其他数据集和评估基准结合起来,以构建更全面和准确的评估工具。这些相关工作不仅推动了LLMs在API调用序列评估方面的发展,也为其他相关领域的研究提供了新的思路和方向。
数据集最近研究
最新研究方向
在自然语言处理领域,大型语言模型(LLMs)在自主代理应用中的重要性日益凸显,这些应用依赖于LLMs来规划和使用工具或外部应用程序接口(APIs)以解决复杂的现实世界任务。NESTFUL数据集的提出,旨在评估LLMs在嵌套API调用序列方面的能力,即序列中一个API的输出作为后续调用的输入。该数据集由300个人工标注的样本组成,分为可执行和非可执行两种类型,旨在填补现有基准测试在评估嵌套API调用方面的不足。研究结果表明,与现有基准测试中的简单问题设置相比,大多数模型在NESTFUL上的嵌套API调用表现不佳。NESTFUL的引入为LLMs在嵌套序列API调用方面的研究提供了新的方向和挑战,并有望推动该领域向更真实的、具有挑战性的任务解决方案发展。
相关研究论文
  • 1
    NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API CallsIBM研究院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作