首届中文NL2SQL挑战赛数据集|NL2SQL数据集|自然语言处理数据集

github2024-05-21 更新2024-05-31 收录

NL2SQL

自然语言处理

下载链接：

https://github.com/ZhuiyiTechnology/NL2SQL_Dataset

下载链接

链接失效反馈

资源简介：

赛题提供了约40,000条有标签数据作为训练集，5,000条数据作为验证集，10,000条无标签数据作为测试集。数据包括train.json、train.tables.json及train.db等文件，用于自然语言问句到SQL查询的转换训练和测试。

The competition provides approximately 40,000 labeled data entries as the training set, 5,000 data entries as the validation set, and 10,000 unlabeled data entries as the test set. The data includes files such as train.json, train.tables.json, and train.db, which are used for training and testing the conversion from natural language queries to SQL queries.

创建时间：

2020-03-19

原始信息汇总

数据集概述

数据集名称

首届中文NL2SQL挑战赛数据集

数据集组成

训练集：约40,000条有标签数据，包含文件：
- train.json：每行一条数据样本，包含字段：
  - table_id：表格ID
  - question：自然语言问句
  - sql：SQL查询结构，包括选择列(sel)、聚合函数(agg)、条件连接操作(cond_conn_op)和条件(conds)
- train.tables.json：每行一张表格数据，包含字段：
  - id：表格ID
  - name：表格名称
  - title：表格标题
  - header：列名
  - types：列类型
  - rows：行数据
- train.db：SQLite格式的数据库文件，表名为train.tables.json中的name字段
验证集：5,000条数据
测试集：10,000条数据，分为初赛和复赛两部分，各5,000条

数据字典

op_sql_dict：SQL操作符字典
agg_sql_dict：SQL聚合函数字典
conn_sql_dict：SQL条件连接字典

数据使用

开源给学术界，严禁商业使用与未授权公开转发
引用格式：

@misc{sun2020tableqa, title={TableQA: a Large-Scale Chinese Text-to-SQL Dataset for Table-Aware SQL Generation}, author={Ningyuan Sun and Xuefeng Yang and Yunfeng Liu}, year={2020}, eprint={2006.06434}, archivePrefix={arXiv}, primaryClass={cs.DB} }

AI搜集汇总

数据集介绍

构建方式

首届中文NL2SQL挑战赛数据集的构建基于大规模的自然语言问句与相应的SQL查询语句的配对。数据集包含约40,000条有标签数据作为训练集，5,000条数据作为验证集，以及10,000条无标签数据作为测试集。训练集由三个主要文件组成：train.json、train.tables.json和train.db。train.json文件中，每条数据样本包含一个自然语言问句及其对应的SQL查询语句，详细描述了SQL的选择列、聚合函数和条件。train.tables.json文件则提供了与这些SQL查询相关的表格信息，包括表格的列名、类型和行数据。train.db文件是以sqlite格式存储的表格数据，便于直接查询和分析。

使用方法

使用该数据集进行NL2SQL任务的研究时，首先需加载train.json文件以获取自然语言问句及其对应的SQL查询语句，作为模型的训练和验证数据。同时，train.tables.json文件提供了与这些查询相关的表格信息，有助于模型理解查询的上下文和结构。对于需要直接操作数据库的场景，train.db文件提供了sqlite格式的表格数据，支持SQL查询的实际执行和结果验证。在使用过程中，应确保遵循数据集的使用权限，避免商业使用和未授权公开转发，并在研究中引用相关文献。

背景与挑战

背景概述

首届中文NL2SQL挑战赛数据集由刘云峰等研究人员于2020年创建，旨在推动自然语言处理与数据库查询的交叉领域研究。该数据集包含了约40,000条有标签数据作为训练集，5,000条数据作为验证集，以及10,000条无标签数据作为测试集。其核心研究问题是如何将自然语言问句准确转换为结构化查询语言（SQL），从而实现高效的数据库查询。这一研究对提升人机交互效率、推动智能问答系统的发展具有重要意义。

当前挑战

该数据集面临的挑战主要包括自然语言问句与SQL语句之间的语义映射复杂性，以及数据集构建过程中对大量标注数据的依赖。具体而言，自然语言的多样性和模糊性使得问句解析成为一大难题，而SQL语句的结构化特性要求精确的语义匹配。此外，数据集的构建涉及大规模的手工标注，这不仅耗时且成本高昂，同时也可能引入标注误差。这些挑战对后续研究提出了高要求，需要开发更智能的算法和工具来克服。

常用场景

经典使用场景

在自然语言处理领域，首届中文NL2SQL挑战赛数据集被广泛应用于文本到SQL语句的转换任务。该数据集通过提供丰富的自然语言问句及其对应的SQL查询语句，使得研究者能够训练和评估模型在理解自然语言并生成相应数据库查询语句的能力。这一任务不仅涉及自然语言理解，还包括对数据库结构和内容的深刻理解，是实现人机交互中自然语言查询数据库的关键步骤。

解决学术问题

该数据集解决了自然语言处理领域中一个重要的学术问题，即如何将自然语言问句准确地转换为结构化的SQL查询语句。这一问题的解决不仅提升了自然语言处理技术的实用性，也为数据库查询的自动化和智能化提供了新的研究方向。通过该数据集，研究者可以探索更高效的模型架构和算法，推动自然语言处理与数据库技术的融合发展。

实际应用

在实际应用中，首届中文NL2SQL挑战赛数据集为企业和研究机构提供了强大的工具，用于开发智能问答系统和数据库查询助手。这些系统能够通过自然语言与用户交互，自动生成并执行SQL查询，极大地简化了数据检索和分析的流程。例如，在金融、医疗和电商等行业，这种技术可以显著提高数据查询的效率和准确性，降低人工操作的错误率。

数据集最近研究

最新研究方向

近年来，自然语言处理（NLP）领域中的文本到SQL（Text-to-SQL）任务因其广泛的应用前景而备受关注。首届中文NL2SQL挑战赛数据集作为该领域的重要资源，推动了中文环境下文本到SQL转换技术的研究。当前的研究方向主要集中在提升模型的准确性和鲁棒性，特别是在处理复杂查询和多表关联时。此外，研究者们也在探索如何利用预训练语言模型（如BERT、GPT等）来增强模型的理解能力和生成质量，以应对中文语境下的多样性和复杂性。这些研究不仅有助于提升数据库查询的自动化水平，也为智能问答系统和数据分析工具的发展提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集，专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象，包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息，并提供了加载和评估数据集的示例代码。

huggingface 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录