text2sql-dataset

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/fahmiaziz/text2sql-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由多个来源组合而成的，包括Wikisql、Bird、Spider以及合成的SQL样本。数据集经过清洗和过滤，去除了DDL/DML示例，基于SQL和查询的哈希语义去重，并且仅保留了SELECT风格的分析查询。

创建时间：

2025-06-08

搜集汇总

数据集介绍

构建方式

在自然语言处理与数据库查询的交叉领域，text2sql-dataset的构建采用了多源数据融合策略，整合了来自Wikisql、Bird、Spider以及合成SQL样本的丰富实例。通过严格的清洗与过滤流程，该数据集剔除了DDL和DML操作类样本，并基于SQL语义哈希技术实现去重，最终专注于筛选SELECT类型的分析性查询，确保了数据质量与一致性。

特点

该数据集以英文自然语言查询与对应SQL语句的配对为核心，涵盖12万余训练样本，总体规模约66MB。其特点在于高度结构化的特征设计，包含prompt（自然语言问题）、context（数据库上下文）及answer（SQL答案）三个字段，支持文本生成与文本到文本转换任务，且专注于NLQ（自然语言查询）和text-to-SQL的细分研究方向。

使用方法

使用者可通过HuggingFace平台直接加载该数据集，默认配置包含训练集分割，适用于模型训练与评估。应用时需依据prompt和context输入生成结构化SQL输出，可广泛用于训练端到端的文本到SQL转换模型，或作为预训练数据增强模型的泛化能力，在学术与工业场景中推动自然语言交互式数据库查询技术的发展。

背景与挑战

背景概述

自然语言到结构化查询语言转换技术是数据库与自然语言处理交叉领域的核心研究方向。text2sql-dataset由多机构研究人员于2020年代初期联合构建，整合了WikiSQL、Spider、Bird等权威数据源的样本。该数据集专注于解决自然语言查询向SQL语句的自动转换问题，通过筛选纯SELECT类分析型查询并消除语义重复样本，显著提升了模型在真实数据库环境中的语义解析能力，推动了对话式数据库交互系统的技术发展。

当前挑战

该数据集主要应对自然语言与SQL语法间结构性差异的挑战，包括疑问句语义解析、跨表连接逻辑推断以及嵌套查询的层次化处理。构建过程中面临多源数据融合的复杂性，需统一不同数据库模式的表述规范，同时通过哈希去重技术消除语义重复样本时，需保持查询意图的完整性与语法多样性，此外还需精准过滤非查询类DML操作以确保数据纯度。

常用场景

经典使用场景

在自然语言处理与数据库交互的交叉领域，text2sql-dataset为文本到SQL查询的转换任务提供了标准化的评估基准。该数据集广泛应用于训练和验证序列到序列模型，研究者通过其丰富的样本学习如何将自然语言问题精准映射为结构化的SQL查询语句，从而推动语义解析技术的前沿发展。

解决学术问题

该数据集有效解决了自然语言与数据库交互中的语义鸿沟问题，为研究社区提供了评估文本到SQL解析模型性能的统一平台。通过整合多源数据并经过严格清洗，它显著提升了模型对复杂查询意图的理解能力，促进了跨领域语义解析算法的创新与比较研究。

衍生相关工作

基于该数据集衍生的经典工作包括基于预训练语言的Text-to-SQL解析器（如T5-SQL、BERT-based序列生成模型），以及结合图神经网络和语义约束的增强方法。这些研究显著推动了文本到SQL任务的准确率提升，并为多轮对话和跨数据库泛化能力的研究奠定了基础。

以上内容由遇见数据集搜集并总结生成