five

OneGate/OGText2SQL

收藏
Hugging Face2024-04-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/OneGate/OGText2SQL
下载链接
链接失效反馈
官方服务:
资源简介:
OGText2SQL数据集用于训练OGSQL模型,包含超过350,000行的文本到SQL对。数据经过模式扩展、SQL精炼和使用现有语言模型生成指令等步骤处理,以确保数据质量和相关性。每个数据实例代表一个文本到SQL条目,其中指令已格式化包含表模式和问题,输出为SQlite方言的SQL查询。数据字段包括context(生成SQL的指令)、question(人类输入)、SQL(生成的SQL查询)和source(样本的来源数据集)。数据语言主要为英语,但也包含其他语言。

OGText2SQL数据集用于训练OGSQL模型,包含超过350,000行的文本到SQL对。数据经过模式扩展、SQL精炼和使用现有语言模型生成指令等步骤处理,以确保数据质量和相关性。每个数据实例代表一个文本到SQL条目,其中指令已格式化包含表模式和问题,输出为SQlite方言的SQL查询。数据字段包括context(生成SQL的指令)、question(人类输入)、SQL(生成的SQL查询)和source(样本的来源数据集)。数据语言主要为英语,但也包含其他语言。
提供机构:
OneGate
原始信息汇总

数据集概述

数据集名称

OGText2SQL

数据集用途

用于训练OGSQL模型,包含超过350,000行的文本到SQL的配对数据。

数据集处理

通过一系列数据精炼步骤,包括模式扩展、SQL精炼和使用现有语言模型(LLMs)生成指令,确保数据集的质量和相关性。

数据集结构

数据实例

每个数据实例代表一个文本到SQL的条目,其中指令已格式化为表模式和问题。输出为SQLite方言的SQL。

数据字段

  • context: 生成SQL的指令。
  • question: 人类输入。
  • SQL: 生成的SQL查询。
  • source: 样本的源数据集。

语言

数据主要为英语,包含其他语言。

许可证

MIT

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作