NL2SQL-BUGs

github2025-03-15 更新2025-03-16 收录

下载链接：

https://github.com/HKUSTDial/nl2sql-bugs.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

NL2SQL-BUGs是一个用于检测自然语言到SQL翻译中语义错误的基准数据集。它包含2018个实例，其中1019个是正确的示例，999个是语义错误的示例。数据集还提供了一个包含9个主要类别和31个子类别的语义错误分类系统。

NL2SQL-BUGs is a benchmark dataset for detecting semantic errors in natural language-to-SQL translation. It contains 2018 instances, among which 1019 are correct examples and 999 are semantically erroneous examples. The dataset also provides a semantic error classification system that includes 9 major categories and 31 subcategories.

创建时间：

2025-03-14

原始信息汇总

NL2SQL-BUGs: 用于检测NL2SQL翻译中语义错误的基准数据集

概述

数据集目的：检测和分类自然语言到SQL（NL2SQL）翻译中的语义错误
特点：
- 双层分类法：包含9个主要类别和31个子类别的语义错误分类系统
- 专家注释数据集：包含2018个实例，包括1019个正确示例和999个语义错误示例
- 详细错误注释：每个错误示例都详细注释了具体的错误类型

数据统计

总实例数：2018
正确示例数：1019
错误示例数（含语义错误）：999
主要错误类别数：9
错误子类别数：31

数据集

数据库一致性：与BIRD基准一致
数据下载链接：
- Google Drive
- BIRD官方网站
标签和错误类型：位于./data/目录下

评估指标

整体准确率：正确识别的实例（正确或错误）的百分比
负精确度（NP）：正确预测的错误案例占所有预测错误案例的比例
负召回率（NR）：正确预测的错误案例占所有实际错误案例的比例
正精确度（PP）：正确预测的正确案例占所有预测正确案例的比例
正召回率（PR）：正确预测的正确案例占所有实际正确案例的比例
特定错误类型准确率（TSA）：每种特定错误类型的准确率

引用

如果您在研究中使用NL2SQL-BUGs，请引用我们的论文：

bibtex @inproceedings{liu2024nl2sqlbugs, title={NL2SQL-BUGs: A Benchmark for Detecting Semantic Errors in NL2SQL Translation}, author={Liu, Xinyu and Shen, Shuyu and Li, Boyan and Tang, Nan and Luo, Yuyu}, booktitle={arxiv}, year={2025} }

搜集汇总

数据集介绍

构建方式

NL2SQL-BUGs数据集的构建采用两层分类体系，旨在检测和分类自然语言到SQL（NL2SQL）翻译中的语义错误。该数据集包含由专家注释的2018个实例，其中包含1019个正确示例和999个带有语义错误的示例。每个错误的示例都详细标注了具体的错误类型，从而为语义错误检测的研究提供了坚实基础。

使用方法

使用NL2SQL-BUGs数据集时，用户可以从Google Drive或BIRD官方网站下载与BIRD基准一致的数据库。数据集的标签和错误类型信息位于`./data/`目录中。评估语义错误检测性能时，可通过整体准确率、负精度、负召回率、正精度、正召回率和特定错误类型的准确性等多个指标进行。

背景与挑战

背景概述

NL2SQL-BUGs数据集，旨在检测和分类自然语言至SQL（NL2SQL）翻译中的语义错误。该数据集的创建，源于当前NL2SQL模型在翻译自然语言查询至SQL时，尽管取得了显著进展，但仍然频繁生成语义不正确的查询。这些查询可能成功执行，却产生错误的结果。NL2SQL-BUGs由Liu Xinyu等研究人员于2025年提出，包含2,018个实例，其中包括1,019个正确示例和999个语义错误示例。该数据集采用双层分类系统，涵盖9个主要类别和31个子类别，对每个错误示例进行详细注释，为语义错误检测研究提供了有力支持。

当前挑战

NL2SQL-BUGs数据集在构建过程中面临的挑战主要涉及两个方面：一是如何准确分类和识别NL2SQL翻译中的语义错误，二是如何构建一个既具有代表性又便于研究的错误标注数据集。在解决领域问题方面，该数据集的挑战在于提高语义错误检测的准确性，包括总体准确率、负向精度、负向召回率、正向精度和正向召回率，以及特定错误类型的准确性。此外，构建过程中还需克服数据标注的一致性和准确性问题，确保数据集的质量和研究价值。

常用场景

经典使用场景

NL2SQL-BUGs数据集作为自然语言到SQL转换中语义错误检测与分类的专用基准，其经典使用场景在于为研究者提供了一套全面的语义错误分类系统，通过细致的错误标注，辅助模型开发者在NL2SQL任务中提升语义正确性。该数据集通过其双层错误分类体系，为研究人员提供了一种精确的评估工具，可用于识别并修正自然语言查询转换成SQL查询过程中的语义错误。

解决学术问题

该数据集解决了NL2SQL领域一个关键问题，即如何有效识别和分类转换过程中产生的语义错误。通过为每个错误实例提供详尽的错误类型标注，NL2SQL-BUGs有助于学术研究者深入理解NL2SQL翻译过程中的错误性质，为后续的错误校正研究奠定了基础，具有重要的学术价值。

实际应用

在实际应用中，NL2SQL-BUGs数据集可以被用来评估和提升数据库查询接口中自然语言处理模块的鲁棒性。通过对NL2SQL模型的错误检测能力的优化，可以减少因错误SQL查询导致的数据错误，提高数据处理和分析的可靠性，进而优化用户体验和工作效率。

数据集最近研究