Okapi

github2021-12-17 更新2024-05-31 收录

下载链接：

https://github.com/microsoft/Okapi

下载链接

链接失效反馈

官方服务：

资源简介：

Okapi是一个新的自然语言到可执行Web API的数据集，包含22,508个问题和9,019个独特的API调用，覆盖三个领域。该数据集研究在低资源环境下的组合泛化，与现有的大多数组合语义解析数据集不同，它不是合成的，旨在创建真实的数据集和基准，以研究组合泛化。

Okapi is a novel dataset that maps natural language to executable web APIs, encompassing 22,508 queries and 9,019 unique API calls across three domains. This dataset investigates compositional generalization in low-resource settings, distinguishing itself from most existing compositional semantic parsing datasets by not being synthetic. It aims to establish a realistic dataset and benchmark for studying compositional generalization.

创建时间：

2021-11-05

原始信息汇总

数据集概述

名称: Okapi

描述: Okapi是一个用于自然语言到可执行Web应用程序编程接口（NL2API）的新数据集，包含22,508个问题和9,019个独特的API调用，覆盖三个领域。该数据集旨在探索模型从训练集中的简单API调用到推理阶段的新复杂API调用的组合泛化能力。

特点:

非合成数据集
低资源设置下的组合泛化研究
评估模型生成正确执行的API调用的能力

数据集统计

数据集	#问题	#查询	#领域	#模板	现实性	2-grams Jaccard相似度
Okapi	22,628	9,019	3	1,961	是	0.14

模型性能比较

数据集/任务	SCAN	Okapi文档	Okapi邮件	Okapi日历
方法分割	长度	程序	长度	程序
LSTM+Attention	14.1	6.1	0	35.1
Transformer+Copy	0	0	7.14	83.2
T5-Base	14.4	15.4	15	31.37

最佳模型性能

最佳模型在从简单API调用泛化到更复杂API调用时，达到15%的精确匹配准确率。

搜集汇总

数据集介绍

构建方式

Okapi数据集是为自然语言到可执行Web API（NL2API）任务而构建的大规模数据集，包含22,508个问题和9,019个唯一的API调用，涵盖三个领域。该数据集通过定义新的组合泛化任务，探索模型从训练集中的简单API调用推断出更复杂API调用的能力。与现有方法不同，Okapi要求生成的API调用能够正确执行，而非仅使用占位符值进行评估。其构建过程注重真实性和低资源环境下的组合泛化研究，为非合成数据集提供了新的研究方向。

使用方法

使用Okapi数据集时，研究人员可以通过训练序列到序列模型（如LSTM+Attention、Transformer+Copy和T5-Base）来评估其在组合泛化任务中的表现。数据集提供了长度和程序两种评估方式，重点关注模型在生成可执行API调用时的准确率。用户可通过GitHub页面获取数据集，并参考相关论文了解详细的实验设置和基准结果。此外，Okapi支持开源贡献，研究人员可通过提交Pull Request参与数据集的改进和扩展，进一步推动自然语言接口领域的研究。

背景与挑战

背景概述

Okapi数据集由Saghar Hosseini、Ahmed Hassan Awadallah和Yu Su等人于2021年提出，旨在推动自然语言到可执行Web API（NL2API）领域的研究。该数据集包含22,508个问题和9,019个独特的API调用，涵盖三个领域，专注于组合泛化任务。与现有的大多数组合语义解析数据集不同，Okapi是一个非合成数据集，研究低资源环境下的组合泛化问题。该数据集的创建标志着在构建真实数据集和基准测试方面迈出了重要一步，为自然语言接口的研究提供了新的视角和挑战。

当前挑战

Okapi数据集的核心挑战在于解决自然语言到API调用的组合泛化问题。现有模型在从简单的API调用泛化到更复杂的API调用时表现不佳，最佳模型的精确匹配准确率仅为15%。此外，数据集的构建过程中面临低资源环境的挑战，要求模型在有限的训练数据下生成可执行的API调用，而非仅依赖占位符值进行评估。这些挑战凸显了在自然语言接口领域进一步研究的必要性，尤其是在组合泛化和执行准确性方面。

常用场景

经典使用场景

Okapi数据集在自然语言到可执行Web API（NL2API）的研究中扮演了重要角色。该数据集包含22,508个问题和9,019个独特的API调用，覆盖了三个领域，特别适用于研究模型在训练集中从简单API调用推断出更复杂API调用的能力。这种能力对于开发能够理解和执行复杂用户指令的自然语言接口至关重要。

解决学术问题

Okapi数据集解决了自然语言处理领域中的一个关键问题：组合泛化。传统的语义解析数据集往往依赖于合成数据，而Okapi提供了一个真实世界的非合成数据集，使得研究者能够在低资源环境中探索组合泛化的挑战。通过这种方式，Okapi推动了自然语言接口技术的进步，尤其是在处理复杂API调用时的准确性和鲁棒性。

实际应用

在实际应用中，Okapi数据集可以用于开发智能助手和自动化工具，这些工具能够理解用户的自然语言指令并执行相应的Web API调用。例如，在电子邮件管理、文档处理和日历安排等领域，Okapi数据集的应用可以显著提高系统的用户体验和操作效率。

数据集最近研究