philschmid/sql-create-context-copy
收藏数据集概述
基本信息
- 许可证: cc-by-4.0
- 任务类别:
- 文本生成
- 问答
- 表格问答
- 语言: 英语
- 标签:
- SQL
- 代码
- NLP
- 文本到SQL
- 上下文SQL
- Spider
- WikiSQL
- SQLGlot
- 名称: sql-create-context
- 大小类别: 10K<n<100K
- 来源: b-mc2/sql-create-context
详细描述
该数据集基于WikiSQL和Spider构建。包含78,577个自然语言查询示例、SQL CREATE TABLE语句以及使用CREATE语句作为上下文的SQL查询答案。该数据集旨在防止在训练文本到SQL模型时常见的列和表名幻觉问题。通过仅提供CREATE TABLE语句作为上下文,可以在不提供实际数据行的情况下为模型提供更好的基础,从而限制令牌使用和避免暴露敏感或专有数据。
数据清洗和增强
对合并的WikiSQL和Spider数据进行了清洗和数据增强。使用SQLGlot解析来自Spider和WikiSQL的查询,并将其解析为不同的表和列,然后根据使用> <操作符以及MIN() MAX() AVG() SUM()函数推断列数据类型。这些表和列用于生成使用推断类型的CREATE TABLE语句。SQLGlot再次用于确保SQL查询和CREATE TABLE语句无错误解析。
示例
json { "question": "Please show the themes of competitions with host cities having populations larger than 1000.", "context": "CREATE TABLE city (City_ID VARCHAR, Population INTEGER); CREATE TABLE farm_competition (Theme VARCHAR, Host_city_ID VARCHAR)", "answer": "SELECT T2.Theme FROM city AS T1 JOIN farm_competition AS T2 ON T1.City_ID = T2.Host_city_ID WHERE T1.Population > 1000" }, { "question": "Please show the different statuses of cities and the average population of cities with each status.", "context": "CREATE TABLE city (Status VARCHAR, Population INTEGER)", "answer": "SELECT Status, AVG(Population) FROM city GROUP BY Status" }



