Spider, BIRD
收藏arXiv2024-06-17 更新2024-06-19 收录
下载链接:
https://github.com/eosphoros-ai/DB-GPT-Hub
下载链接
链接失效反馈官方服务:
资源简介:
本研究涉及的两个主要数据集为Spider和BIRD。Spider数据集包含10,181个自然语言查询,涵盖200个数据库和138个领域,分为四个难度级别。BIRD数据集则包含12,751个问题-SQL对,涉及95个大型数据库,分为三个难度级别。这两个数据集均用于评估和调优大型语言模型在文本到SQL任务中的性能。创建过程中,数据集通过标准化流程处理,确保数据质量和适用性。应用领域主要集中在自然语言处理和数据库交互,旨在提高非专业用户与数据库系统之间的交互效率,解决复杂的查询生成问题。
The two core datasets utilized in this study are Spider and BIRD. The Spider dataset comprises 10,181 natural language queries, spanning 200 databases across 138 domains, and is divided into four difficulty tiers. The BIRD dataset contains 12,751 question-SQL pairs, involving 95 large-scale databases, and is categorized into three difficulty levels. Both datasets are employed to evaluate and fine-tune the performance of Large Language Models (LLMs) on the text-to-SQL task. During their development, the datasets were processed through standardized procedures to guarantee data quality and applicability. Their application domains primarily center on natural language processing (NLP) and database interaction, aiming to improve the interaction efficiency between non-professional users and database systems, and address complex query generation problems.
提供机构:
蚂蚁集团
创建时间:
2024-06-17
搜集汇总
数据集介绍

构建方式
Spider和BIRD数据集的构建基于大规模的自然语言查询与SQL查询对的收集。Spider数据集包含10,181个自然语言查询和5,693个复杂的SQL查询,覆盖了138个领域的200个数据库。BIRD数据集则包含12,751个独特的查询-SQL对,涵盖了95个大型数据库,SQL查询的复杂度较高。数据集的构建过程涉及从多个领域中提取数据库模式,并通过专家标注生成对应的SQL查询。这些查询被进一步分类为不同的难度级别,以便评估模型在不同复杂度任务上的表现。
特点
Spider和BIRD数据集的特点在于其跨领域的复杂性和多样性。Spider数据集涵盖了多个领域的数据库,SQL查询分为四个难度级别,从简单到极难,适合评估模型在不同复杂度任务上的表现。BIRD数据集则进一步引入了外部知识,如数值推理、领域知识和同义词知识,以帮助模型生成更准确的SQL查询。此外,BIRD数据集中的SQL查询通常比Spider数据集更为复杂,适合评估模型在处理复杂查询时的能力。
使用方法
Spider和BIRD数据集的使用方法主要包括模型的训练和评估。在训练阶段,模型通过输入自然语言查询和数据库模式,生成对应的SQL查询。评估阶段则通过精确匹配(EM)和执行准确率(EX)两个指标来衡量模型的性能。EM指标衡量生成的SQL查询与标准答案的关键字匹配程度,而EX指标则通过在实际数据库中执行生成的SQL查询,比较其输出结果与标准答案的差异。此外,数据集还支持零样本和少样本提示(prompting)方法,以及基于参数高效微调(PEFT)的模型调优方法,如LoRA和QLoRA。
背景与挑战
背景概述
Spider和BIRD是两个广泛用于文本到SQL转换任务的数据集。Spider由耶鲁大学的研究团队于2018年发布,包含10,181个自然语言问题和5,693个复杂的SQL查询,覆盖了138个领域的200个数据库。BIRD则由Li等人于2023年发布,包含12,751个问题-SQL对,覆盖了95个大型数据库,涉及37个专业领域。这两个数据集的发布极大地推动了自然语言处理与数据库领域的交叉研究,尤其是在如何将自然语言问题转化为可执行的SQL查询方面。Spider和BIRD的复杂性和多样性使得它们成为评估大型语言模型(LLMs)在文本到SQL任务中表现的重要基准。
当前挑战
Spider和BIRD数据集在文本到SQL任务中面临的主要挑战包括:1) 自然语言问题的歧义性和复杂性,尤其是涉及多表连接、嵌套查询和复杂聚合操作时;2) 数据库模式的多样性,不同数据库的结构和语义差异较大,模型需要具备跨领域的泛化能力;3) 数据标注的高成本,尤其是SQL查询的标注需要领域专家的参与,限制了数据集的扩展。此外,构建过程中还面临如何设计有效的提示(prompt)和微调策略的挑战,尤其是在处理大规模语言模型时,计算资源的高昂成本也是一个显著问题。
常用场景
经典使用场景
Spider和BIRD数据集在文本到SQL转换任务中被广泛使用,尤其是在评估和优化大型语言模型(LLMs)的性能时。这些数据集通过提供跨领域的复杂SQL查询和自然语言问题对,帮助研究人员测试模型在不同数据库模式下的泛化能力。经典的使用场景包括在Spider数据集上微调LLMs,以生成准确的SQL查询,并在BIRD数据集上测试模型对大规模数据库内容的处理能力。
解决学术问题
Spider和BIRD数据集解决了文本到SQL转换任务中的多个关键学术问题。首先,它们帮助研究人员评估模型在处理复杂SQL查询时的性能,尤其是在跨领域数据库中的表现。其次,这些数据集通过提供标准化的评估框架,促进了不同模型之间的公平比较。此外,BIRD数据集引入了外部知识,如数值推理和领域知识,进一步推动了模型在复杂场景下的表现。这些数据集的使用显著提升了文本到SQL任务的研究水平,并为未来的模型优化提供了坚实的基础。
衍生相关工作
Spider和BIRD数据集催生了许多相关的研究工作,尤其是在文本到SQL任务的模型优化和评估方面。基于这些数据集,研究人员开发了多种先进的模型,如SQL-PaLM、PICARD和RESDSQL,这些模型通过微调或提示策略显著提升了SQL生成的准确性。此外,DB-GPT-Hub等开源基准套件的推出,进一步推动了文本到SQL任务的研究,使得研究人员能够更轻松地比较和复现不同模型的结果。这些衍生工作不仅丰富了文本到SQL领域的研究成果,还为未来的技术发展提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



