CallNavi

Name: CallNavi
Creator: 卢森堡大学, 卢森堡科学技术研究所, 兰卡斯特大学, BGL BNP PARIBAS
Published: 2025-01-09 22:12:43
License: 暂无描述

arXiv2025-01-09 更新2025-01-11 收录

下载链接：

https://anonymous.4open.science/r/CallNavi-783E

下载链接

链接失效反馈

官方服务：

资源简介：

CallNavi数据集由卢森堡大学等机构创建，旨在评估大语言模型在API调用任务中的表现。该数据集包含729个问题，涵盖10个不同领域的API调用任务，分为简单、中等和困难三个难度级别。数据集通过自动化生成和人工验证相结合的方式创建，确保了数据的多样性和高质量。数据集的应用领域主要集中在API驱动的聊天机器人系统，旨在解决复杂API调用任务中的API选择、参数生成和嵌套调用问题。

The CallNavi dataset was developed by institutions including the University of Luxembourg, aiming to evaluate the performance of Large Language Models (LLMs) on API call tasks. This dataset contains 729 questions covering API call tasks across 10 distinct domains, and is divided into three difficulty levels: simple, medium, and hard. The dataset was created through a combination of automated generation and manual validation to ensure its diversity and high quality. Its main application scenarios focus on API-driven chatbot systems, aiming to solve challenges including API selection, parameter generation and nested calls in complex API call tasks.

提供机构：

卢森堡大学, 卢森堡科学技术研究所, 兰卡斯特大学, BGL BNP PARIBAS

创建时间：

2025-01-09

原始信息汇总

数据集概述

数据集名称

CallNavi

数据集地址

https://anonymous.4open.science/r/CallNavi-783E

数据集描述

该数据集是一个匿名化的代码库，托管在Anonymous GitHub平台上。数据集的具体内容和用途未在提供的HTML文本中详细描述。

数据集结构

数据集包含多个文件和目录，具体结构未在提供的HTML文本中详细描述。

数据集用途

该数据集可能用于代码分析、机器学习模型训练或其他与代码相关的研究。

数据集访问

数据集可以通过提供的链接访问，但需要进一步查看具体内容以了解其详细信息和用途。

数据集许可

数据集的许可信息未在提供的HTML文本中提及。

数据集维护

数据集由Anonymous GitHub平台托管，维护信息未在提供的HTML文本中详细描述。

搜集汇总

数据集介绍

构建方式

CallNavi数据集的构建采用了自动化生成与人工验证相结合的方法，以确保数据的高质量和多样性。首先，使用GPT-4生成了涵盖多个领域的API函数名称、描述、参数和返回值。随后，所有生成的API函数经过人工审查，确保其准确性和一致性。简单问题通过GPT-4生成并验证，而中等和困难问题则由人工构建，模拟复杂的API调用场景，包括多步调用和嵌套调用。最后，数据集经过多阶段的质量控制，确保其可靠性和实用性。

特点

CallNavi数据集的特点在于其复杂性和多样性。数据集包含729个问题，涵盖10个不同领域，问题难度分为简单、中等和困难三个级别。简单问题仅需单次API调用，中等问题涉及多个API的顺序调用，而困难问题则要求处理嵌套调用和参数依赖。此外，CallNavi引入了超过100个API候选列表，模拟了真实世界中的API选择复杂性，并提出了新的评估指标，如稳定性评分，以衡量模型在多轮运行中的一致性。

使用方法

CallNavi数据集的使用方法主要包括对大型语言模型（LLMs）在API选择和参数生成任务中的性能评估。用户可以通过该数据集测试模型在不同难度级别下的表现，评估其在单次调用、多步调用和嵌套调用中的能力。数据集还支持使用抽象语法树（AST）匹配和LLM-as-a-Judge方法进行结构化输出评估。此外，CallNavi提供了稳定性评分，帮助用户评估模型在多次运行中的输出一致性，从而为实际应用中的API调用系统提供改进建议。

背景与挑战

背景概述

CallNavi数据集由卢森堡大学、卢森堡科学技术研究所、兰卡斯特大学以及BGL BNP PARIBAS的研究团队于2025年推出，旨在评估大型语言模型（LLMs）在API函数选择、参数生成以及嵌套API调用等复杂任务中的表现。该数据集的创建源于现代对话式AI系统（如聊天机器人）在处理复杂API调用时面临的挑战，尤其是在多步骤任务中准确选择和执行API的需求。CallNavi通过引入超过100个API候选列表、多步骤API调用以及嵌套API交互，模拟了真实世界的复杂性，填补了现有数据集在复杂API调用评估上的空白。该数据集不仅为API驱动的聊天机器人系统提供了实用的进展，还为LLMs在结构化输出生成领域的研究奠定了基础。

当前挑战

CallNavi数据集在解决API调用问题的过程中面临多重挑战。首先，API选择与参数生成的准确性是核心难题，尤其是在多步骤任务中，模型需要从大量API候选中准确选择并生成正确的参数。其次，构建数据集时，研究人员需确保API调用的逻辑依赖性和嵌套调用的复杂性，这要求数据生成过程兼具自动化与人工验证，以确保数据的多样性和高质量。此外，模型在处理嵌套API调用时，往往难以保持输出的稳定性和一致性，尤其是在零样本或少样本场景下，模型的推理能力受到极大考验。这些挑战不仅反映了当前LLMs在结构化输出生成上的局限性，也为未来研究提供了改进方向。

常用场景

经典使用场景

CallNavi数据集主要用于评估大型语言模型（LLMs）在API函数调用和参数生成任务中的表现。该数据集通过模拟复杂的多步骤API调用场景，测试模型在从大量API候选项中选择正确API、生成准确参数以及处理嵌套API调用时的能力。其经典使用场景包括在聊天机器人系统中生成API调用序列，以完成用户请求的复杂任务，如银行账户查询、物流跟踪等。

实际应用

在实际应用中，CallNavi数据集为开发基于API驱动的聊天机器人系统提供了重要支持。通过评估模型在复杂API调用任务中的表现，开发者可以更好地优化聊天机器人的功能，提升其在金融、物流、医疗等领域的应用效果。例如，在银行场景中，模型可以通过生成准确的API调用序列，帮助用户查询账户余额、转账记录等复杂操作，从而提高用户体验和系统效率。

衍生相关工作

CallNavi数据集的推出催生了一系列相关研究工作，特别是在API调用生成和参数优化领域。例如，基于该数据集的研究提出了异步生成方法，将API选择与参数生成任务分离，显著提升了模型在复杂任务中的表现。此外，CallNavi还启发了对模型输出稳定性的深入研究，推动了如反向推理思维等技术的发展，这些技术通过分步推理优化了模型在嵌套API调用任务中的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集