five

NL2SQL-BUGs|自然语言处理数据集|数据库管理数据集

收藏
arXiv2025-03-15 更新2025-03-19 收录
自然语言处理
数据库管理
下载链接:
https://nl2sql-bugs.github.io/
下载链接
链接失效反馈
资源简介:
NL2SQL-BUGs是由香港科技大学(广州)的研究团队创建的一个数据集,旨在帮助研究人员检测和分类NL2SQL转换中的语义错误。该数据集按照两级分类法对语义错误进行分类,涵盖了9个主要类别和多个子类别。每个实例都由自然语言查询、数据库模式以及相应的SQL查询组成,并对错误的SQL查询提供了详细的注释说明。该数据集可应用于自然语言处理和数据库管理领域,以促进NL2SQL技术的实用化和鲁棒性提升。
提供机构:
香港科技大学(广州)
创建时间:
2025-03-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
NL2SQL-BUGs数据集的构建过程分为三个主要步骤。首先,研究人员对现有NL2SQL基准数据集(如BIRD)中的SQL查询进行了验证和清理,确保其语义正确性。其次,通过多个NL2SQL模型生成候选SQL查询,并与清理后的基准数据进行对比,筛选出错误的查询。最后,专家团队对这些错误查询进行了详细的语义错误分类,采用了两级分类法,涵盖9个主要类别和31个子类别。每个实例包含自然语言查询、数据库模式和SQL查询,并附有详细的错误注释。
特点
NL2SQL-BUGs数据集的特点在于其专注于NL2SQL翻译中的语义错误检测,提供了2018个专家标注的实例,每个实例包含自然语言查询、数据库模式和SQL查询。数据集采用了两级分类法,系统地将语义错误分为9个主要类别和31个子类别,涵盖了从属性错误到子查询错误等多种类型。此外,数据集还包含了106个在BIRD基准中未检测到的语义错误,展示了其在语义错误检测方面的独特价值。
使用方法
NL2SQL-BUGs数据集的使用方法主要包括语义错误检测和分类任务。研究人员可以通过该数据集评估不同模型在检测NL2SQL翻译中的语义错误方面的性能。具体而言,模型需要根据自然语言查询、数据库模式和生成的SQL查询,判断SQL查询是否语义正确,并对错误的查询进行分类。数据集还可用于训练和优化NL2SQL模型,特别是在处理复杂数据库模式和多样化用户查询时的语义理解能力。
背景与挑战
背景概述
NL2SQL-BUGs是由香港科技大学(广州)的研究团队于2018年提出的首个专注于自然语言到SQL(NL2SQL)翻译中语义错误检测的基准数据集。该数据集由Xinyu Liu、Shuyu Shen、Boyan Li、Nan Tang和Yuyu Luo等研究人员共同开发,旨在填补现有NL2SQL基准数据集在语义错误检测方面的空白。NL2SQL-BUGs通过两层次的分类法系统地对语义错误进行分类,涵盖了9个主要类别和31个子类别,共包含2018个专家标注的实例,每个实例包括自然语言查询、数据库模式和SQL查询,并详细标注了语义错误的类型。该数据集的推出为NL2SQL系统的语义错误检测提供了重要的评估工具,推动了该领域的研究进展。
当前挑战
NL2SQL-BUGs面临的挑战主要体现在两个方面:首先,NL2SQL翻译中的语义错误检测本身具有较高的复杂性,尤其是在处理复杂的数据库模式和多样化的用户查询时,模型往往难以准确捕捉自然语言查询的语义意图,导致生成的SQL查询虽然语法正确,但语义上存在偏差。其次,数据集的构建过程中也面临诸多挑战,包括如何确保标注的准确性和一致性,以及如何设计合理的分类体系以覆盖广泛的语义错误类型。此外,现有的语言模型在语义错误检测任务中的表现仍有较大提升空间,平均检测准确率仅为75.16%,表明该领域仍需进一步研究以提升模型的鲁棒性和准确性。
常用场景
经典使用场景
NL2SQL-BUGs数据集主要用于评估和检测自然语言到SQL(NL2SQL)翻译过程中产生的语义错误。该数据集通过提供2018个专家标注的实例,涵盖了自然语言查询、数据库模式和SQL查询,并详细标注了语义错误的类型。研究人员可以利用该数据集来测试和改进NL2SQL模型的语义错误检测能力,特别是在复杂查询和多样化数据库环境下的表现。
实际应用
NL2SQL-BUGs数据集在实际应用中具有广泛的价值。它可以用于开发和优化NL2SQL系统,特别是在需要高精度查询的领域,如金融、医疗和电子商务。通过检测和纠正语义错误,该数据集能够帮助减少由于错误查询导致的业务风险和数据不一致问题。此外,该数据集还可以用于培训数据库管理员和开发人员,帮助他们更好地理解和处理NL2SQL翻译中的常见错误。
衍生相关工作
NL2SQL-BUGs数据集推动了多个相关研究领域的发展。基于该数据集,研究人员开发了多种语义错误检测模型和方法,如基于大语言模型(LLM)的自动错误检测系统。此外,该数据集还促进了NL2SQL系统的改进,特别是在复杂查询和多表连接场景下的性能优化。一些经典工作还利用该数据集进行了跨领域的合作研究,结合数据库工程、数据挖掘和自然语言处理技术,进一步提升了NL2SQL系统的实用性和可部署性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录