RaffaSch121/fixed_spider

Name: RaffaSch121/fixed_spider
Creator: RaffaSch121
Published: 2024-06-14 14:10:58
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/RaffaSch121/fixed_spider

下载链接

链接失效反馈

官方服务：

资源简介：

Cleaned Spider Dataset for Text2SQL是Spider数据集的改进版本，专门用于Text2SQL任务。该数据集解决了原始数据集中的一些关键问题，如大小写不一致、引用不存在的表以及缺少模式等问题，从而提高了数据质量和可靠性。数据集包含自然语言问题及其对应的SQL查询，适用于训练和评估Text2SQL模型。数据集的文本为英文，且不包含个人或敏感信息。

Cleaned Spider Dataset for Text2SQL is an improved variant of the original Spider dataset, tailored specifically for Text2SQL tasks. This dataset resolves several critical issues present in the initial Spider dataset, including inconsistent capitalization, references to non-existent database tables, and missing database schemas, thus improving data quality and reliability. It comprises natural language questions paired with their corresponding SQL queries, making it suitable for training and evaluating Text2SQL models. The dataset is entirely in English and contains no personal or sensitive information.

提供机构：

RaffaSch121

原始信息汇总

Cleaned Spider Dataset for Text2SQL

数据集概述

Cleaned Spider Dataset for Text2SQL 是原始 Spider 数据集的改进版本，原始 Spider 数据集是一个大规模、复杂且跨域的语义解析和文本到 SQL 数据集。这个增强版本解决了原始数据集中发现的几个关键问题，确保了用于训练文本到 SQL 模型的高质量和可靠性。增强版本通过 Turbulars 的高级数据处理能力和内部通用数据库连接器实现。

支持的任务和排行榜

原始 Spider 数据集的排行榜可以在 Spider Leaderboard 查看。增强数据集与相同的任务兼容，并且由于其质量的提高，可以用于实现更好的性能。

语言

数据集中的文本为英语。

数据集结构

数据实例

数据集中的每个实例代表一个自然语言问题及其等效的 SQL 查询。

数据字段

db_id: 数据库名称
question: 需要解释为 SQL 的自然语言问题
query: 目标 SQL 查询
query_toks: 查询的标记列表
query_toks_no_value: 不带值的查询标记列表
question_toks: 问题的标记列表

数据集创建

策划理由

基于我们在训练 Text2SQL 模型方面的经验，Cleaned Spider Dataset for Text2SQL 是为了解决原始 Spider 数据集中的以下问题而创建的：

大小写差异：规范化数据库布局以及查询中引用的列和表。
不存在的表：删除引用不存在的表的查询。
缺少模式：随机为每个数据库布局引入 1-3 个模式，并相应更新受影响的查询。

源数据

数据集基于原始 Spider 数据集，该数据集由 11 名耶鲁大学学生标注。

标注

原始数据集由耶鲁大学的学生标注。增强工作由 Turbulars 内部团队使用他们的通用数据库连接器完成。

个人和敏感信息

该数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

提高文本到 SQL 数据集的质量可以显著增强自然语言界面到数据库的开发，使数据查询更加易于访问和高效。此外，还能促进数据洞察的民主化。

偏见讨论

数据集继承了原始 Spider 数据集中的任何偏见。

其他已知限制

虽然增强版本解决了几个关键问题，但用户仍应注意自动化数据集处理的内有限制。

附加信息

数据集策展人

原始 Spider 数据集由耶鲁大学的一个研究团队策展。增强工作由 Turbular 团队完成。

引用信息

如果您使用此数据集，请引用原始 Spider 数据集：

bibtex @inproceedings{yu-etal-2018-spider, title = "{S}pider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-{SQL} Task", author = "Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and Zhang, Zilin and Radev, Dragomir", editor = "Riloff, Ellen and Chiang, David and Hockenmaier, Julia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1425", doi = "10.18653/v1/D18-1425", pages = "3911--3921", archivePrefix={arXiv}, eprint={1809.08887}, primaryClass={cs.CL}, }

贡献

感谢 Turbular 团队的其他成员对数据集进行增强并确保其质量。特别感谢 @olinguyen 添加原始数据集。更多关于我们工作的信息，请访问 www.turbular.com。

搜集汇总

数据集介绍

构建方式

Cleaned Spider Dataset for Text2SQL 是基于原始Spider数据集的改进版本，旨在解决原始数据集中存在的若干关键问题。通过Turbular的高级数据处理能力和内部通用数据库连接器，该数据集在数据库布局、表引用和查询一致性方面进行了优化。具体改进包括统一数据库布局中的大小写、移除引用不存在表的查询，并为每个数据库布局随机引入1-3个模式以更新相关查询。这些改进显著提升了数据集的质量和可靠性，使其更适合用于训练文本到SQL的模型。

特点

该数据集的特点在于其高质量和跨领域的复杂性。每个数据实例包含一个自然语言问题及其对应的SQL查询，涵盖了多个数据库领域。数据集中的字段包括数据库名称、自然语言问题、目标SQL查询及其分词形式。通过改进，数据集消除了原始版本中的不一致性，如大小写差异和非存在表的引用问题，同时引入了随机模式以增强查询的多样性。这些特点使得该数据集在训练和评估文本到SQL模型时表现出更高的准确性和鲁棒性。

使用方法

该数据集的使用方法主要围绕文本到SQL任务的模型训练和评估展开。用户可以通过加载数据集中的自然语言问题和对应的SQL查询，构建和训练文本到SQL模型。数据集的结构清晰，字段包括数据库名称、问题、查询及其分词形式，便于直接用于模型输入和输出。此外，该数据集与原始Spider数据集的排行榜兼容，用户可以通过改进后的数据集在相同的任务上获得更好的性能表现。使用该数据集时，建议用户引用原始Spider数据集的相关文献，以尊重其贡献。

背景与挑战

背景概述

Cleaned Spider Dataset for Text2SQL 是基于原始Spider数据集的改进版本，旨在解决自然语言到SQL查询的语义解析问题。该数据集由耶鲁大学的研究团队于2018年创建，并由Turbular团队进一步优化。Spider数据集作为大规模、跨领域的文本到SQL转换任务基准，推动了自然语言处理领域的发展，特别是在数据库查询接口的自动化方面。Cleaned Spider Dataset通过修正原始数据集中的关键问题，如大小写不一致、引用不存在的表以及缺失的数据库模式，显著提升了数据质量，为模型训练提供了更可靠的基准。

当前挑战

Cleaned Spider Dataset for Text2SQL 面临的挑战主要集中在两个方面。首先，文本到SQL转换任务本身具有高度复杂性，尤其是在跨领域场景下，模型需要理解多样化的数据库结构和自然语言表达之间的映射关系。其次，在数据集的构建过程中，原始Spider数据集存在诸如大小写不一致、引用不存在的表以及模式缺失等问题，这些问题需要通过复杂的后处理步骤进行修正。尽管Turbular团队通过其先进的数据库连接器和数据处理能力解决了部分问题，但自动化处理仍可能引入新的偏差或错误，这为数据集的进一步优化提出了挑战。

常用场景

经典使用场景

在自然语言处理领域，RaffaSch121/fixed_spider数据集被广泛用于训练和评估文本到SQL的转换模型。该数据集通过提供高质量的自然语言问题及其对应的SQL查询，帮助研究人员开发能够准确理解用户查询意图并生成相应SQL语句的模型。特别是在跨领域和复杂查询场景下，该数据集的表现尤为突出。

解决学术问题

RaffaSch121/fixed_spider数据集解决了原始Spider数据集中存在的多个关键问题，如大小写不一致、引用不存在的表以及缺少数据库模式等。这些问题在原始数据集中可能导致模型训练的不稳定性和性能下降。通过修复这些问题，该数据集显著提升了文本到SQL模型的训练效果，为语义解析和数据库查询生成领域的研究提供了更可靠的数据基础。

衍生相关工作

基于RaffaSch121/fixed_spider数据集，许多经典的研究工作得以展开。例如，研究人员开发了更高效的文本到SQL模型，如基于Transformer的架构和强化学习方法。此外，该数据集还推动了跨领域语义解析技术的发展，使得模型能够更好地适应不同数据库结构和查询需求。这些工作不仅提升了模型的性能，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集