five

philschmid/sql-create-context-copy

收藏
Hugging Face2023-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/philschmid/sql-create-context-copy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于WikiSQL和Spider数据集构建,包含78,577个自然语言查询、SQL CREATE TABLE语句以及使用CREATE语句作为上下文回答问题的SQL查询。数据集的目的是为文本到SQL的LLM提供更好的上下文,防止模型在训练过程中产生列名和表名的幻觉。数据清洗和增强过程使用了SQLGlot工具,对查询进行解析和推断列数据类型,并生成CREATE TABLE语句。
提供机构:
philschmid
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 任务类别:
    • 文本生成
    • 问答
    • 表格问答
  • 语言: 英语
  • 标签:
    • SQL
    • 代码
    • NLP
    • 文本到SQL
    • 上下文SQL
    • Spider
    • WikiSQL
    • SQLGlot
  • 名称: sql-create-context
  • 大小类别: 10K<n<100K
  • 来源: b-mc2/sql-create-context

详细描述

该数据集基于WikiSQLSpider构建。包含78,577个自然语言查询示例、SQL CREATE TABLE语句以及使用CREATE语句作为上下文的SQL查询答案。该数据集旨在防止在训练文本到SQL模型时常见的列和表名幻觉问题。通过仅提供CREATE TABLE语句作为上下文,可以在不提供实际数据行的情况下为模型提供更好的基础,从而限制令牌使用和避免暴露敏感或专有数据。

数据清洗和增强

对合并的WikiSQL和Spider数据进行了清洗和数据增强。使用SQLGlot解析来自Spider和WikiSQL的查询,并将其解析为不同的表和列,然后根据使用> <操作符以及MIN() MAX() AVG() SUM()函数推断列数据类型。这些表和列用于生成使用推断类型的CREATE TABLE语句。SQLGlot再次用于确保SQL查询和CREATE TABLE语句无错误解析。

示例

json { "question": "Please show the themes of competitions with host cities having populations larger than 1000.", "context": "CREATE TABLE city (City_ID VARCHAR, Population INTEGER); CREATE TABLE farm_competition (Theme VARCHAR, Host_city_ID VARCHAR)", "answer": "SELECT T2.Theme FROM city AS T1 JOIN farm_competition AS T2 ON T1.City_ID = T2.Host_city_ID WHERE T1.Population > 1000" }, { "question": "Please show the different statuses of cities and the average population of cities with each status.", "context": "CREATE TABLE city (Status VARCHAR, Population INTEGER)", "answer": "SELECT Status, AVG(Population) FROM city GROUP BY Status" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作