lorinma/NL2SQL_zh
收藏Hugging Face2024-01-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/NL2SQL_zh
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- zh
---
整合了3个中文数据集:追一科技NL2SQL,西湖大学的CSpider中文翻译,百度的DuSQL。
进行了大致的清洗,以及格式转换(alpaca):
假设你是一个数据库SQL专家,下面我会给出一个MySQL数据库的信息,请根据问题,帮我生成相应的SQL语句。当前时间为2023年。格式如下:{'sql':sql语句}
MySQL数据库数据库结构如下:\n{表名(字段名...)}\n 其中:\n{表之间的主外键关联关系}\n 对于query:“{问题}”,给出相应的SQL语句,按照要求的格式返回,不进行任何解释。
其中,DuSQL最终结果是25004个。NL2SQL最终结果45919个,注意表名是乱码。CSpider,最终结果7786条,注意数据库是英文的,问题是中文的。
最终形成的文件,一共78706条,文件样例:
```
{
"instruction": "假设你是一个数据库SQL专家,下面我会给出一个MySQL数据库的信息,请根据问题,帮我生成相应的SQL语句。当前时间为2023年。",
"input": "MySQL数据库数据库结构如下:Table_f367fd66453d11e9bdc9f40f24344a08(序号, 检验报告号, 商品名称, 标称生产者名称, 标称商标, 型号(货号))。对于问题:“我想知道纯琦服饰生产的呢子风衣的检验结果如何,麻烦给我它的报告号”,给出相应的SQL语句,不进行任何解释。",
"output": "SELECT 检验报告号 WHERE 标称生产者名称 == \"纯琦服饰有限公司\" and 商品名称 == \"呢子风衣\""
},
```
language:
- zh
This dataset integrates three Chinese datasets: Zhuiyi Technology's NL2SQL, the Chinese translated version of CSpider from Westlake University, and Baidu's DuSQL. Preliminary cleaning and format conversion to the Alpaca format have been conducted.
The task instruction is as follows: Assume you are a database SQL expert. I will provide the schema information of a MySQL database, please generate the corresponding SQL statement based on the given question. The current year is 2023. The required output format is: {'sql': <SQL_statement>}
The detailed input format is: The schema of the target MySQL database is as follows:
{table_name (field_name1, field_name2, ...)}
The primary and foreign key relationships between tables are:
{table relationship details}
For the query: "{question}", generate the corresponding SQL statement and return it in the required format without any additional explanations.
Specifically, the final processed samples are 25,004 for DuSQL, 45,919 for NL2SQL (note that the table names in this subset are garbled), and 7,786 for CSpider (note that the database schema is in English while the questions are in Chinese).
The final compiled dataset contains a total of 78,706 samples. A sample entry is as follows:
{
"instruction": "You are a database SQL expert. I will provide you with the schema information of a MySQL database. Please generate the corresponding SQL statement based on the given question. The current year is 2023.",
"input": "The schema of the target MySQL database is as follows: Table_f367fd66453d11e9bdc9f40f24344a08 (Serial Number, Inspection Report Number, Product Name, Nominal Manufacturer Name, Nominal Trademark, Model (Item Number)). For the question: "I would like to know the inspection results of the woolen coat produced by Chunqi Clothing, please provide its report number.", generate the corresponding SQL statement without any additional explanations.",
"output": "SELECT `检验报告号` FROM Table_f367fd66453d11e9bdc9f40f24344a08 WHERE `标称生产者名称` = 'Chunqi Clothing Co., Ltd.' AND `商品名称` = 'woolen coat'"
}
提供机构:
lorinma
原始信息汇总
数据集概述
数据集来源
- 整合了3个中文数据集:追一科技NL2SQL,西湖大学的CSpider中文翻译,百度的DuSQL。
数据清洗与格式转换
- 进行了大致的清洗,以及格式转换(alpaca)。
数据集描述
- DuSQL最终结果是25004个。
- NL2SQL最终结果45919个,注意表名是乱码。
- CSpider,最终结果7786条,注意数据库是英文的,问题是中文的。
数据集规模
- 最终形成的文件,一共78706条。
数据样例
json { "instruction": "假设你是一个数据库SQL专家,下面我会给出一个MySQL数据库的信息,请根据问题,帮我生成相应的SQL语句。当前时间为2023年。", "input": "MySQL数据库数据库结构如下:Table_f367fd66453d11e9bdc9f40f24344a08(序号, 检验报告号, 商品名称, 标称生产者名称, 标称商标, 型号(货号))。对于问题:“我想知道纯琦服饰生产的呢子风衣的检验结果如何,麻烦给我它的报告号”,给出相应的SQL语句,不进行任何解释。", "output": "SELECT 检验报告号 WHERE 标称生产者名称 == "纯琦服饰有限公司" and 商品名称 == "呢子风衣"" }
搜集汇总
数据集介绍

构建方式
该数据集 lorinma/NL2SQL_zh 采取整合多个中文自然语言到SQL查询数据集的方法构建而成,包含追一科技NL2SQL、西湖大学的CSpider中文翻译以及百度的DuSQL三个子数据集。构建过程中,首先对原始数据进行了清洗,随后执行了格式转换,以适应alpaca格式标准,确保数据集的统一性和可用性。
使用方法
使用该数据集时,用户需根据数据集提供的指示,理解并分析MySQL数据库结构,然后针对所给的中文查询问题,生成相应的SQL语句。数据集以JSON格式存储,每一条记录都包含指令、输入和输出三个部分,用户可以按照这一结构进行模型训练或测试,以评估模型在自然语言到SQL转换任务上的表现。
背景与挑战
背景概述
NL2SQL_zh数据集,在自然语言处理与数据库查询领域,是一份不可或缺的资源。该数据集的构建起始于近年来,由追一科技、西湖大学及百度等机构的研究人员共同推进。其核心研究问题聚焦于如何将自然语言问题转换成结构化查询语言SQL,旨在提升机器理解自然语言并与之交互的能力。NL2SQL_zh数据集自发布以来,对促进中文自然语言处理技术的发展,特别是数据库查询生成任务,产生了深远的影响。
当前挑战
该数据集在构建过程中面临了诸多挑战,其中包括处理多源异构数据集的整合难题,确保数据清洗的质量,以及进行有效的格式转换。此外,数据集在解决自然语言到SQL转换任务时,所面临的挑战包括如何准确理解中文表述的复杂性,以及如何在保持准确性的同时,提高SQL生成的效率。NL2SQL_zh数据集所解决的领域问题是中文环境下的自然语言到SQL的映射,这一过程涉及到的挑战还包括了跨语言和数据库结构的适应性。
常用场景
经典使用场景
在自然语言处理与数据库查询结合的研究领域,lorinma/NL2SQL_zh数据集提供了一个重要的资源。该数据集的核心使用场景在于训练自然语言到SQL的转换模型,使得能够将用户用自然语言提出的问题自动转换成对应的SQL查询语句,从而实现对数据库的自动化查询。
解决学术问题
该数据集解决了学术研究中如何将自然语言有效映射至结构化查询语言的问题,这对于提升数据库查询的便捷性和智能化水平具有重要意义。它不仅降低了用户查询数据库的门槛,也提高了信息检索的效率,对自然语言处理领域的发展具有推动作用。
实际应用
在实际应用中,该数据集可以被用于构建智能问答系统,特别是在电商、金融、医疗等行业中,能够实现对大量数据的快速准确查询,提升用户体验和服务效率。
数据集最近研究
最新研究方向
在自然语言处理与数据库查询接口领域,lorinma/NL2SQL_zh数据集的整合与清洗工作,为研究中文SQL语句生成提供了丰富的资源。该数据集结合了追一科技NL2SQL、西湖大学的CSpider中文翻译以及百度的DuSQL,覆盖了25004个DuSQL实例、45919个NL2SQL实例和7786条CSpider记录,成为本领域研究的热点数据集。近期研究方向主要集中在提升自然语言到SQL的转换质量,特别是在处理表名乱码、数据库英文与中文问题不匹配等挑战上。该研究不仅促进了机器学习模型在理解复杂查询语句方面的进步,而且对构建智能数据库助理、提升数据库交互体验等方面具有重要的实践影响和意义。
以上内容由遇见数据集搜集并总结生成



