five

bugdaryan/sql-create-context-instruction

收藏
Hugging Face2023-09-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bugdaryan/sql-create-context-instruction
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于WikiSQL和Spider数据构建,包含78,577个自然语言查询、SQL CREATE TABLE语句以及使用CREATE语句作为上下文回答问题的SQL查询。数据集旨在为文本到SQL的LLM提供更好的上下文,避免模型在训练时产生列名和表名的幻觉。数据清洗和增强过程包括使用SQLGlot解析查询、推断列数据类型以及生成CREATE TABLE语句。未来的工作方向包括将查询和CREATE TABLE语句转换为不同的SQL方言。
提供机构:
bugdaryan
原始信息汇总

数据集概述

该数据集基于SQL Create Context构建,使用了WikiSQLSpider的数据。包含78,577个自然语言查询示例、SQL CREATE TABLE语句以及使用CREATE语句作为上下文的SQL查询。该数据集旨在为文本到SQL的LLM模型设计,以防止在训练文本到SQL数据集时常见的列和表名幻觉问题。通过仅提供CREATE TABLE语句作为上下文,可以在不提供实际数据行的情况下,为模型提供更好的基础,从而限制令牌使用和避免敏感或专有数据的暴露。

数据清洗和增强

对合并的WikiSQL和Spider数据进行了清洗和数据增强。使用SQLGlot对来自Spider和WikiSQL的查询进行解析,生成不同的表和列。根据> <操作符以及MIN()MAX()AVG()SUM()的使用推断列数据类型。这些表和列随后用于生成使用推断类型的CREATE TABLE语句。SQLGlot再次用于确保SQL查询和CREATE TABLE语句无错误解析。

对于没有列名的查询(例如SELECT * FROM table),默认添加了Id列到CREATE TABLE语句中。对于使用通用table作为FROM表的查询,已更改为table_name_1或其他数字,并在CREATE TABLE语句中反映这一变化。

TODO

  • 进一步增强数据,通过将查询和CREATE TABLE语句转换为不同的SQL方言。可以使用SQLGlot完成此操作,并可能在问题中添加方言参考。

随机样本

json { "text" : "[INST] Write SQLite query to answer the following question given the database schema. Please wrap your code answer using : Schema: CREATE TABLE head (age INTEGER) Question: How many heads of the departments are older than 56 ? [/INST] Here is the SQLite query to answer to the question: How many heads of the departments are older than 56 ?: SELECT COUNT(*) FROM head WHERE age > 56 ", "text" : "[INST] Write SQLite query to answer the following question given the database schema. Please wrap your code answer using : Schema: CREATE TABLE head (name VARCHAR, born_state VARCHAR, age VARCHAR) Question: List the name, born state and age of the heads of departments ordered by age. [/INST] Here is the SQLite query to answer to the question: List the name, born state and age of the heads of departments ordered by age.: SELECT name, born_state, age FROM head ORDER BY age " }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作