spider

github2023-12-12 更新2024-05-31 收录

下载链接：

https://github.com/cuplv/text-to-sql-wizardcoder

下载链接

链接失效反馈

官方服务：

资源简介：

用于text-to-SQL合成的大型语言模型训练和验证的数据集。

A dataset for training and validating large language models (LLMs) for text-to-SQL synthesis.

创建时间：

2023-07-26

原始信息汇总

数据集概述

微调数据集

spider: 基础数据集，用于微调。
richardr1126/spider-context-instruct: 包含数据库上下文的微调数据集。
richardr1126/spider-natsql-skeleton-context-instruct: 使用NatSQL输出和骨架格式的微调数据集。
richardr1126/spider-skeleton-context-instruct: 使用骨架格式的微调数据集。

验证数据集

spider: 用于验证的基础数据集。
richardr1126/spider-context-validation: 包含数据库上下文的验证数据集。
richardr1126/spider-natsql-context-validation: 使用NatSQL的验证数据集。
richardr1126/spider-context-validation-ranked-schema: 数据库上下文经过排序的验证数据集。

本地大型语言模型

richardr1126/sql-guanaco-13b-merged: 基于guanaco 13b模型的本地语言模型。
richardr1126/spider-natsql-wizard-coder-merged: 使用NatSQL的本地语言模型。
richardr1126/spider-skeleton-wizard-coder-merged: 最佳模型，使用骨架格式。

夏季2023方法

SQL Guanaco 13B: 首次尝试微调LLM，基于guanaco 13b模型。
Spider Wizard Coder: 使用WizardCoder-15B模型，微调于richardr1126/spider-context-instruct数据集。
Spider NatSQL Skeleton WizardCoder: 使用NatSQL和骨架格式，微调于richardr1126/spider-natsql-skeleton-context-instruct数据集。
Spider Skeleton Wizard Coder: 使用骨架格式，微调于richardr1126/spider-skeleton-context-instruct数据集。
ChatGPT: 使用ChatGPT进行比较，验证数据集与Spider Skeleton Wizard Coder相同。

秋季2023方法

Spider Skeleton Wizard Coder + ChatGPT Ranked Schema: 使用排序后的数据库上下文进行预测。
Spider Skeleton Wizard Coder + 5 Beams + ChatGPT Ranked Schema: 使用5 beams生成多个SQL查询。
Spider Skeleton Wizard Coder + 5 Beams + ChatGPT Choose Best SQL + ChatGPT Ranked Schema: ChatGPT选择最佳SQL。
ChatGPT + Alignment + Clear Context: 使用gpt3.5-turbo-16k模型，优化数据库上下文格式。
ChatGPT + Alignment + Clear Context + Error Correction: 添加SQL错误修正功能。
SQLChatGPT: 结合多种技术，包括示例驱动修正。
SQLChatGPT + SELECT and WHERE Clause Repair: 引入基于示例的SELECT和WHERE子句修复。
Finetuned SQLChatGPT + SELECT and WHERE Clause Repair: 使用微调后的ChatGPT模型进行SQL查询预测。

数据集引用

C3: Zero-shot Text-to-SQL with ChatGPT
WizardCoder: Empowering Code Large Language Models with Evol-Instruct
Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task
Natural SQL: Making SQL Easier to Infer from Natural Language Specifications
QLoRA: Efficient Finetuning of Quantized LLMs
RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL

搜集汇总

数据集介绍

构建方式

Spider数据集的构建基于大规模人工标注，涵盖了复杂且跨领域的语义解析任务。该数据集通过收集多样化的自然语言查询及其对应的SQL语句，确保了数据的广泛性和代表性。构建过程中，研究人员精心设计了数据库模式，涵盖了多个领域，如音乐、体育等，以确保数据集的多样性和复杂性。此外，数据集还引入了NatSQL作为中间表示，简化了SQL查询的生成过程，提升了模型的表现。

特点

Spider数据集的特点在于其复杂性和跨领域的广泛覆盖。数据集包含了超过10,000条自然语言查询及其对应的SQL语句，涵盖了200多个数据库模式。每个查询都经过精心设计，以确保其复杂性和多样性，涵盖了从简单查询到复杂嵌套查询的各种场景。此外，数据集还引入了NatSQL作为中间表示，简化了SQL查询的生成过程，提升了模型的表现。

使用方法

Spider数据集的使用方法主要包括模型微调和验证。研究人员可以使用该数据集对预训练的语言模型进行微调，以提升其在文本到SQL任务中的表现。微调过程中，可以使用不同的中间表示（如NatSQL）和骨架格式化技术，以简化查询生成过程。验证阶段，可以使用数据集的验证集对模型进行评估，确保其在复杂查询场景下的表现。此外，数据集还支持与ChatGPT等大型语言模型的结合使用，通过提示工程和错误校正进一步提升模型的表现。

背景与挑战

背景概述

Spider数据集由Tao Yu等人于2018年提出，旨在推动复杂跨领域的语义解析和文本到SQL任务的研究。该数据集包含了大量人工标注的复杂SQL查询，涵盖了多个数据库领域，如学术、金融、音乐等。Spider的创建标志着文本到SQL任务的一个重要里程碑，尤其是在处理跨领域和多表查询的复杂性方面。该数据集不仅为研究者提供了一个标准化的评估平台，还推动了自然语言处理与数据库技术的深度融合，显著提升了模型在复杂查询生成中的表现。

当前挑战

Spider数据集面临的挑战主要体现在两个方面。首先，文本到SQL任务本身具有极高的复杂性，尤其是在跨领域和多表查询的场景下，模型需要准确理解自然语言描述并将其转换为结构化的SQL查询。其次，数据集的构建过程中，如何确保标注的准确性和一致性是一个巨大的挑战，尤其是在处理复杂的嵌套查询和多表连接时。此外，Spider数据集还要求模型具备较强的泛化能力，能够适应不同数据库结构和查询模式，这对模型的架构设计和训练策略提出了更高的要求。

常用场景

经典使用场景

Spider数据集作为文本到SQL转换任务中的基准数据集，广泛应用于自然语言处理领域。其经典使用场景包括训练和评估模型在复杂跨领域数据库上的语义解析能力。通过提供多样化的数据库结构和复杂的查询语句，Spider数据集能够有效测试模型在真实世界场景中的表现。

解决学术问题

Spider数据集解决了文本到SQL转换任务中的多个关键学术问题，特别是在跨领域复杂查询的语义解析方面。通过提供大规模、多样化的数据库和查询对，该数据集帮助研究者开发出能够处理多表连接、嵌套查询等复杂SQL结构的模型。此外，Spider数据集还推动了自然语言与SQL之间的语义对齐研究，提升了模型在实际应用中的泛化能力。

衍生相关工作

Spider数据集衍生了许多经典的研究工作，例如基于NatSQL的中间表示方法、WizardCoder模型的微调以及ChatGPT在文本到SQL任务中的应用。这些工作不仅提升了模型的性能，还推动了自然语言处理与数据库技术的深度融合。此外，Spider数据集还激发了诸如RESDSQL等创新方法的研究，进一步推动了文本到SQL领域的发展。

以上内容由遇见数据集搜集并总结生成