Web API Invocation Tasks Dataset

arXiv2025-09-27 更新2025-09-26 收录

下载链接：

https://zenodo.org/doi/10.5281/zenodo.13758414

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含四个真实世界API的Web API调用任务，共近400对任务和预期结果。数据集用于执行基础上的正确性分析。数据集的内容包括API调用的HTTP方法、URL、请求体、请求头和查询参数。数据集的创建过程使用了大型语言模型（LLM）和API规范，并经过手动审查和修正。数据集的应用领域是评估LLMs生成Web API调用代码的能力，旨在解决API集成代码生成中的挑战。

This dataset contains Web API calling tasks from four real-world APIs, with nearly 400 pairs of tasks and their corresponding expected outcomes. It is used for correctness analysis based on the included task data. The dataset covers HTTP methods, URLs, request bodies, request headers, and query parameters involved in API calls. The dataset was created using large language models (LLMs) and API specifications, and underwent manual review and revision. Its purpose is to evaluate the ability of LLMs to generate Web API calling code, aiming to resolve the challenges encountered in API integration code generation.

提供机构：

达姆施塔特工业大学黑森人工智能中心

创建时间：

2025-09-24

搜集汇总

数据集介绍

构建方式

在Web API集成代码生成研究领域，构建高质量数据集是评估大语言模型能力的关键基础。该数据集通过合成方法生成，选取Asana、Google Calendar、Google Sheets和Slack四个真实场景的API，基于OpenAPI规范构建了395个任务-配置对。研究团队采用Gemini 1.5 Pro模型进行初始数据生成，通过自动化检查与人工双重校验机制消除歧义，确保每个样本包含明确的任务描述和符合规范请求配置。

特点

该数据集聚焦于RESTful API调用场景，其核心特征体现在多维度评估框架的设计上。数据集覆盖四种主流API服务的所有端点，包含POST、GET等六类HTTP方法，每个样本均包含自然语言任务描述和结构化请求配置。独特之处在于采用执行式评估方法，通过模拟拦截技术捕获生成代码的实际请求参数，支持对URL合规性、参数完整性等细粒度指标进行量化分析。

使用方法

数据集通过标准化评估管道支持对大语言模型的系统性评测。使用时将任务描述与API名称作为输入，模型需生成完整的Axios调用代码。评估过程分为代码生成、安全执行和配置比对三个阶段：首先在受控环境中运行生成代码，随后将捕获的请求配置与基准真值进行组件级对比，最后结合API规范验证合法性。该方法支持全完成和参数完成两种实验设置，可分别评估端点选择能力和参数使用准确性。

背景与挑战

背景概述

Web API集成代码生成数据集由达姆施塔特工业大学与黑森人工智能中心的研究团队于2025年创建，旨在系统评估大语言模型在生成Web API调用代码方面的能力。该数据集聚焦于现实场景中的API集成任务，涵盖Asana、Google Calendar、Google Sheets和Slack四大主流服务的395个端点，严格遵循OpenAPI行业标准规范。其核心研究问题在于探索大语言模型能否准确回忆并组合API规范中的关键要素，包括端点URL、HTTP方法和多维度参数配置，为软件工程自动化领域提供了首个面向RESTful API代码生成的可执行基准。

当前挑战

该数据集针对的领域挑战在于Web API调用代码生成的复杂性：相较于本地函数调用，API调用需同时处理HTTP方法、动态URL路径、请求体、查询参数等多重参数列表，且参数常涉及嵌套数据结构。构建过程中面临双重挑战：一是真实代码库缺乏足够明确的自然语言任务描述，迫使采用合成数据生成策略；二是需通过自动化校验与人工审核相结合的方式，确保生成的395个样本在任务描述无歧义性的同时，与OpenAPI规范保持严格一致性，并修复了9个规范不一致样本及58个描述模糊样本。

常用场景

经典使用场景

在软件工程领域，Web API集成代码生成数据集为评估大语言模型生成RESTful API调用代码的能力提供了标准化基准。该数据集通过构建包含API名称、自然语言任务描述和预期请求配置的三元组结构，系统化地模拟了开发者在集成第三方服务时的典型工作流程。其经典应用场景体现在对模型生成代码的功能正确性进行细粒度评估，涵盖端点选择、参数传递和规范合规性等关键维度，为API驱动的软件开发自动化研究奠定了实验基础。

实际应用

在实际开发环境中，该数据集支撑的评估管道可集成至现代IDE工具链，为智能代码补全系统提供质量验证基准。企业能够基于其细粒度指标优化内部API集成工作流，特别是在微服务架构和云原生应用开发中，有效降低因自动生成代码的规范偏差导致的系统集成风险。其安全执行环境设计更使得该技术可应用于金融、医疗等高风险领域的API调用代码生成质量监控。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于检索增强生成的API知识注入方法、面向规范合规的约束解码技术等衍生工作。其评估方法论为后续研究如CloudAPIBench、ToolLLM等工具调用基准提供了技术范式，同时启发了对跨语言API集成代码生成、动态API演化适应等前沿问题的探索。相关成果正推动形成以功能正确性为核心的新一代代码智能评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集