Spider

Name: Spider
Creator: IBM研究院
Published: 2024-09-09 23:44:39
License: 暂无描述

arXiv2024-09-09 更新2024-09-11 收录

下载链接：

http://arxiv.org/abs/2409.05735v1

下载链接

链接失效反馈

官方服务：

资源简介：

Spider数据集是一个用于评估自然语言到SQL查询转换能力的文本到SQL数据集，由多个数据库组成，每个数据库包含多个表和一组自然语言查询，这些查询的正确SQL翻译是已知的。该数据集旨在解决在异构数据源环境中进行自然语言问答的问题，特别是在需要从数据库和API中获取信息的场景中。通过扩展Spider数据集，研究者们模拟了更真实的工业环境，评估了系统在处理数据库和API混合访问时的性能。

提供机构：

IBM研究院

创建时间：

2024-09-09

搜集汇总

数据集介绍

构建方式

该数据集的构建方式是通过扩展流行的Spider数据集，将其中的一些数据库表替换为等价的API调用，以模拟现实世界中常见的数据源异构性环境。具体来说，数据集的构建包括提供一个统一的实体关系图作为抽象模式，以及提供API映射模式来调用外部API。通过这种方式，数据集能够模拟不同类型数据库和API混合的环境。

特点

该数据集的特点在于它模拟了现实世界中的数据源异构性，包含数据库表和API调用。它允许评估系统在面对混合数据库访问和API调用时的表现。此外，数据集还包含了不同难度的查询，从而能够全面评估系统的性能。

使用方法

使用该数据集的方法包括首先了解数据集的结构和组成，然后设计查询来测试系统能否正确地在数据库和API之间进行查询。可以通过调整API到表的比率（ATTR）来控制数据集的异构性程度，从而评估系统在不同异构性环境下的表现。

背景与挑战

背景概述

Spider数据集是一个大规模的人工标注数据集，旨在解决复杂和跨领域的语义解析以及文本到SQL任务。该数据集由Tao Yu等人于2018年创建，并已被广泛应用于自然语言处理和数据库查询领域。Spider数据集的核心研究问题是如何将自然语言问题转换为结构化的SQL查询语句。该数据集对相关领域产生了重要影响，为文本到SQL的转换提供了丰富的实验基础和评价标准。

当前挑战

Spider数据集在构建过程中遇到的挑战主要包括：1)如何处理多种数据源异构性问题，即不同类型的数据源（如SQL数据库、NoSQL数据库和APIs）的混合使用；2)如何有效地将自然语言问题映射到正确的数据源上，并生成合适的查询语句；3)如何保证查询结果的准确性和效率。本文提出的siwarex系统通过提供一个统一的关系视图，将API调用视为虚拟表，并使用用户定义函数（UDF）来调用API，从而巧妙地解决了这些问题。

常用场景

经典使用场景

Spider数据集经典使用场景在于，它提供了一个含有多个表的数据库，以及一系列自然语言查询，这些查询的正确SQL翻译是已知的。这使得它成为测试和评估大型语言模型在自然语言接口访问结构化数据方面的性能的理想平台。

解决学术问题

Spider数据集解决了学术研究中如何处理异构数据源的问题。在现实世界的工业环境中，数据通常以不同类型的数据库和API的形式存在。Spider通过扩展原始的Text-to-SQL任务，将API调用作为虚拟表纳入统一的查询框架，从而允许大型语言模型处理这种异构性。

衍生相关工作

Spider数据集衍生了多项相关工作，包括对数据集的扩展和改进，以及在此基础上开发的新的查询系统和基准。这些工作进一步推动了大型语言模型在处理复杂和异构数据源方面的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集