GradeSQL-training-dataset-bird-balanced

Hugging Face2025-09-03 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/sisinflab-ai/GradeSQL-training-dataset-bird-balanced

下载链接

链接失效反馈

官方服务：

资源简介：

GradeSQL训练数据集用于BIRD（平衡变体），包含针对每个自然语言问题的多个SQL候选查询，每个查询都标注有正确性标签，表示其结果是否与参考SQL查询相同，用于训练模型区分SQL查询的语义正确性。

创建时间：

2025-08-25

原始信息汇总

GradeSQL Training Dataset for BIRD (Balanced Variant) 概述

数据集描述

用途：训练GradeSQL Outcome Reward Model (ORM)，用于验证自然语言问题生成的SQL查询的语义正确性。
内容：包含每个问题的多个SQL候选查询，每个查询标注了正确性标签，指示其是否与参考（黄金）SQL查询产生相同结果。
目标：帮助模型区分语义正确和错误的查询，提高Text-to-SQL任务中与用户意图的对齐。

构建方法

问题来源：Text-to-SQL基准的训练问题集Qtrain。
查询生成：使用大型语言模型（LLM）生成多个思维链（CoT）推理路径，每条路径以SQL查询结束，每个问题生成N个SQL候选查询。
过滤：仅保留语法正确的查询。
标签分配：通过执行候选查询和参考查询，比较结果集。
- 正确：结果集相等。
- 错误：结果集不同。
- 丢弃：执行错误。

引用信息

bibtex @misc{gradesqloutcomerewardmodels2025, title={GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models}, author={Mattia Tritto and Giuseppe Farano and Dario Di Palma and Gaetano Rossiello and Fedelucio Narducci and Dharmashankar Subramanian and Tommaso Di Noia}, year={2025}, eprint={2509.01308}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.01308}, }

搜集汇总

数据集介绍

构建方式

在文本到SQL转换的研究领域，数据质量直接影响模型性能。该数据集基于BIRD基准的训练问题集Qtrain，通过大型语言模型生成多个思维链推理路径，每条路径末端输出一个SQL候选查询。随后对候选查询进行语法正确性筛选，保留有效查询后，通过在关联数据库上执行候选查询与参考查询，比较结果集的一致性以标注正确性标签，错误执行的查询则被剔除。

使用方法

该数据集专为训练GradeSQL结果奖励模型而构建，适用于文本到SQL领域的语义正确性判别任务。研究人员可将其作为训练数据，输入自然语言问题及对应的SQL候选查询，模型学习预测查询的正确性标签。使用时应加载数据集中的问题-查询-标签三元组，通过监督学习优化模型参数，最终提升模型在真实场景下对SQL查询质量的评估能力。

背景与挑战

背景概述

文本到SQL转换作为自然语言处理与数据库管理系统的交叉领域，旨在将自然语言问题自动转化为可执行的SQL查询语句。GradeSQL-training-dataset-bird-balanced数据集由Mattia Tritto等研究人员于2025年构建，依托Apache 2.0开源协议发布。该数据集专为训练BIRD基准的语义正确性评估模型而设计，通过大规模语言模型生成多候选查询并基于执行结果标注正确性标签，显著提升了Text-to-SQL任务中语义对齐的精确度，对推动对话式数据库检索系统的发展具有重要价值。

当前挑战

文本到SQL领域长期面临语义等价的复杂性挑战，即不同语法结构的查询可能产生相同执行结果。该数据集构建过程中需攻克多重技术难题：首先需通过链式推理生成多样化的候选查询，同时确保其语法合法性；其次需设计高效的多查询执行框架以比对结果集等价性，其中涉及数据库状态一致性维护与执行错误处理；最后需平衡正负样本分布以避免模型偏差，这些挑战共同推动了语义评估方法学的创新。

常用场景

经典使用场景

在自然语言处理与数据库交互的交叉领域，GradeSQL-training-dataset-bird-balanced数据集被广泛用于训练和评估文本到SQL转换系统中的语义正确性判别模型。其核心应用场景在于通过对比生成SQL与参考SQL的执行结果，为机器学习模型提供精准的监督信号，从而优化模型在复杂查询场景下的语义对齐能力。

解决学术问题

该数据集有效解决了文本到SQL任务中语义等价性判定的关键学术问题。通过提供大量带有执行结果标签的SQL候选查询，它使研究者能够构建可靠的奖励模型，突破传统基于语法匹配或浅层语义相似度的评估局限，显著提升了模型对用户真实意图的理解精度与泛化性能。

实际应用

在实际数据库管理系统和智能问答平台中，该数据集支撑的模型能够自动验证生成SQL的语义正确性，大幅降低人工审核成本。其在金融数据查询、医疗信息检索、商业智能分析等需要高精度数据库交互的场景中，确保了自然语言查询到结构化查询语言转换的可靠性与安全性。

数据集最近研究