WikiSQL

Name: WikiSQL
Creator: OpenDataLab
Published: 2026-07-12 04:30:30
License: 暂无描述

OpenDataLab2026-07-12 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/WikiSQL

下载链接

链接失效反馈

官方服务：

资源简介：

WikiSQL 由 87,726 个手工注释的 SQL 查询和自然语言问题对的语料库组成。这些 SQL 查询进一步分为训练（61,297 个示例）、开发（9,145 个示例）和测试集（17,284 个示例）。它可用于与关系数据库相关的自然语言推理任务。

WikiSQL is a corpus consisting of 87,726 manually annotated pairs of SQL queries and natural language questions. These pairs are further divided into three subsets: the training set (61,297 examples), the development set (9,145 examples), and the test set (17,284 examples). It can be utilized for natural language inference tasks related to relational databases.

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍

构建方式

WikiSQL数据集的构建基于维基百科的表格数据，通过自动化的方式从维基百科页面中提取表格及其相关文本信息。构建过程中，首先对维基百科页面进行解析，提取出结构化的表格数据，随后将这些表格与自然语言查询进行配对，形成一个包含问题、表格和SQL查询的训练集。这一过程确保了数据集的多样性和实用性，为自然语言到SQL查询的转换提供了丰富的训练样本。

特点

WikiSQL数据集的主要特点在于其大规模和多样性。该数据集包含了超过80,000个自然语言查询及其对应的SQL查询，涵盖了多种表格结构和查询类型。此外，WikiSQL数据集还具有高度的真实性，因为其数据来源于实际的维基百科内容，这使得数据集在实际应用中具有较高的参考价值。

使用方法

WikiSQL数据集主要用于训练和评估自然语言处理模型，特别是那些旨在将自然语言查询转换为结构化查询语言（SQL）的模型。使用该数据集时，研究人员可以利用其提供的自然语言查询和对应的SQL查询进行模型训练，并通过验证集和测试集评估模型的性能。此外，WikiSQL数据集还可以用于开发和测试新的自然语言理解技术，特别是在处理复杂表格数据时。

背景与挑战

背景概述

WikiSQL数据集由Salesforce研究团队于2017年创建，旨在推动自然语言处理与数据库查询之间的交互研究。该数据集包含了超过80,000个自然语言问题及其对应的SQL查询，涵盖了多种数据库表结构和查询类型。WikiSQL的推出，极大地促进了自然语言接口（NLI）和语义解析（Semantic Parsing）领域的发展，为研究人员提供了一个标准化的测试平台，以评估和改进模型在实际应用中的表现。

当前挑战

尽管WikiSQL数据集在推动自然语言与SQL查询的结合方面取得了显著进展，但其构建和应用过程中仍面临诸多挑战。首先，数据集中的自然语言问题与SQL查询之间的映射复杂性较高，要求模型具备较强的语义理解和逻辑推理能力。其次，数据集的多样性和覆盖范围虽然广泛，但仍难以完全模拟真实世界的复杂查询场景。此外，如何有效处理数据集中的噪声和歧义，以及如何提升模型在多表查询和嵌套查询中的表现，也是当前研究中亟待解决的问题。

发展历史

创建时间与更新

WikiSQL数据集由Salesforce研究团队于2017年创建，旨在为自然语言处理领域提供一个大规模的结构化查询语言（SQL）生成基准。该数据集自创建以来，未有官方更新记录，但其持续被广泛应用于各种研究项目中。

重要里程碑

WikiSQL的发布标志着自然语言处理与数据库查询之间的桥梁建设进入了一个新的阶段。其首次将大规模的SQL查询生成任务引入到自然语言处理的研究中，极大地推动了相关领域的发展。此外，WikiSQL的发布还促进了多模态学习的发展，使得模型能够更好地理解自然语言与结构化数据之间的关系。

当前发展情况

当前，WikiSQL数据集已成为自然语言处理领域中的一个重要基准，广泛应用于各种SQL生成模型的训练与评估。其不仅推动了自然语言处理技术的发展，还促进了数据库查询技术的进步。随着深度学习技术的不断进步，WikiSQL的应用场景也在不断扩展，从简单的SQL生成任务逐渐向更为复杂的跨模态数据处理任务发展。此外，WikiSQL的成功也为其他类似数据集的创建提供了宝贵的经验和参考。

发展历程

WikiSQL数据集首次发表，由Victor Zhong、Caiming Xiong和Richard Socher在arXiv上发布，旨在为自然语言到SQL查询的转换提供一个标准化的基准。
2017年
WikiSQL数据集在自然语言处理领域得到广泛应用，成为评估和比较不同模型在语义解析任务中性能的重要工具。
2018年
随着深度学习技术的发展，WikiSQL数据集被用于训练和测试各种基于神经网络的语义解析模型，推动了该领域的技术进步。
2019年
WikiSQL数据集的扩展版本发布，增加了更多的数据和复杂查询，以适应更高级的语义解析任务需求。
2020年
WikiSQL数据集在多个国际会议和竞赛中被用作基准测试，进一步验证了其在自然语言处理研究中的重要性。
2021年

常用场景

经典使用场景

在自然语言处理领域，WikiSQL数据集被广泛用于评估和提升模型在自然语言到SQL查询转换任务中的表现。该数据集包含了从维基百科页面中提取的表格数据，以及与之对应的自然语言问题和SQL查询。通过训练和测试模型，研究者能够探索如何将复杂的自然语言问题准确地映射到结构化的SQL查询，从而实现高效的数据检索和分析。

衍生相关工作

基于WikiSQL数据集，研究者们开发了多种相关的经典工作。例如，一些研究提出了新的神经网络架构，以提高自然语言到SQL查询的转换精度。另一些工作则专注于提升模型的泛化能力，使其能够在未见过的数据集上表现良好。此外，还有研究探讨了如何结合其他类型的数据集，如多表查询数据集，以进一步提升模型的性能和应用范围。

数据集最近研究