Turbular/fixed_spider

Name: Turbular/fixed_spider
Creator: Turbular
Published: 2024-07-05 03:09:27
License: 暂无描述

Hugging Face2024-07-05 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Turbular/fixed_spider

下载链接

链接失效反馈

官方服务：

资源简介：

Cleaned Spider Dataset for Text2SQL是一个改进版的Spider数据集，专注于文本到SQL的语义解析。该数据集解决了原始数据集中的多个关键问题，如大小写差异、不存在表的问题以及缺少模式的问题，从而提高了训练文本到SQL模型的质量和可靠性。数据集包含自然语言问题及其对应的SQL查询，适用于训练文本到SQL模型。数据集的创建基于原始Spider数据集，由Yale大学的学生注释，并由Turbular团队进行增强。数据集不包含个人或敏感信息，且旨在提高自然语言接口到数据库的查询效率。

The Cleaned Spider Dataset for Text2SQL is an improved version of the original Spider dataset, focusing on text-to-SQL semantic parsing. This dataset addresses several critical issues found in the original dataset, such as differences in capitalization, non-existent tables, and missing schemas, thereby improving the quality and reliability for training text-to-SQL models. The dataset contains natural language questions and their corresponding SQL queries, suitable for training text-to-SQL models. The dataset is based on the original Spider dataset, annotated by Yale University students, and enhanced by the Turbular team. The dataset does not contain personal or sensitive information and aims to improve the efficiency of natural language interfaces to databases.

提供机构：

Turbular

原始信息汇总

Cleaned Spider Dataset for Text2SQL

数据集概述

Cleaned Spider Dataset for Text2SQL 是原始 Spider 数据集的改进版本，用于复杂和跨领域的语义解析和文本到 SQL 的任务。该改进版本解决了原始数据集中的一些关键问题，确保了更高的质量和可靠性，以用于训练文本到 SQL 模型。

支持的任务和排行榜

该数据集与原始 Spider 数据集的任务兼容，并由于其改进的质量，可以用于实现更好的性能。

语言

数据集中的文本为英语。

数据集结构

数据实例

每个实例代表一个自然语言问题及其对应的 SQL 查询。

数据字段

db_id: 数据库名称
question: 自然语言问题
query: 目标 SQL 查询
query_toks: 查询的标记列表
query_toks_no_value: 不带值的查询标记列表
question_toks: 问题的标记列表

数据集创建

创建理由

Cleaned Spider Dataset for Text2SQL 的创建是为了解决原始 Spider 数据集中的以下问题：

大小写差异：标准化了数据库布局和查询中引用的列和表。
不存在的表：删除了引用不存在的表的查询。
缺少模式：随机为每个数据库布局引入 1-3 个模式，并相应更新受影响的查询。

源数据

该数据集基于原始的 Spider 数据集，由 11 名耶鲁大学学生标注。

标注

原始数据集由耶鲁大学的学生标注。改进工作由 Turbular 的内部团队使用其通用数据库连接器完成。

个人和敏感信息

该数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

提高文本到 SQL 数据集的质量可以显著增强数据库自然语言接口的开发，使数据查询更加便捷和高效。

讨论偏见

该数据集继承了原始 Spider 数据集中的任何偏见。

其他已知限制

尽管进行了改进，用户仍应注意自动化数据集处理中的固有限制。

附加信息

数据集策展人

原始 Spider 数据集由耶鲁大学的一个研究团队策展。改进工作由 Turbular 团队完成。

引用信息

如果使用该数据集，请引用原始的 Spider 数据集。

搜集汇总

数据集介绍

背景与挑战

背景概述

Cleaned Spider Dataset for Text2SQL是Spider数据集的改进版本，专注于提升文本到SQL转换任务的数据质量。它解决了原始数据集中的关键问题，如大小写不一致、表不存在和缺乏模式定义，适用于训练更可靠的文本到SQL模型。数据集包含自然语言问题和对应的SQL查询，支持复杂和跨领域的语义解析任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集