GradeSQL-training-dataset-bird-unbalanced

Hugging Face2025-09-03 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/sisinflab-ai/GradeSQL-training-dataset-bird-unbalanced

下载链接

链接失效反馈

官方服务：

资源简介：

GradeSQL训练数据集BIRD版本（不平衡变体）用于训练GradeSQL结果奖励模型（ORM），以验证从自然语言问题生成的SQL查询的语义正确性。该数据集包含针对每个问题的多个SQL候选查询，每个查询都带有正确性标签，表示它是否与参考（金标准）SQL查询产生相同的结果。

创建时间：

2025-08-25

原始信息汇总

GradeSQL Training Dataset for BIRD (Unbalanced Variant) 数据集概述

数据集描述

该数据集用于训练 GradeSQL 结果奖励模型（ORM），针对 BIRD 数据集，用于验证从自然语言问题生成的 SQL 查询的语义正确性。每个问题包含多个 SQL 候选查询，每个查询都标注了正确性标签，指示其是否与参考（黄金）SQL 查询产生相同的结果。

该数据集帮助模型学习区分语义正确和错误的查询，提高文本到 SQL 任务中与用户意图的对齐度。

构建方法

对于文本到 SQL 基准，训练集问题表示为 Qtrain。
对于 Qtrain 中的每个问题，通过提示大型语言模型（LLM）生成多个思维链（CoT）推理路径来生成 N 个 SQL 候选查询。每个路径以 SQL 查询结束。
这导致每个问题有一个候选查询集：Cq = {c1, c2, ..., cN}。
每个候选查询集经过过滤，仅保留语法正确的查询。
为了分配正确性标签，候选查询 ci 和黄金参考查询 gq 都在相关数据库上执行，产生结果集 R(ci) 和 R(gq)。
标注规则如下：
- 如果 R(ci) 等于 R(gq)，则标记为 correct
- 如果 R(ci) 不同于 R(gq)，则标记为 incorrect
- 如果执行 ci 导致错误，则标记为 discarded

引用信息

如果您在研究中使用 GradeSQL，请引用以下论文：

bibtex @misc{gradesqloutcomerewardmodels2025, title={GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models}, author={Mattia Tritto and Giuseppe Farano and Dario Di Palma and Gaetano Rossiello and Fedelucio Narducci and Dharmashankar Subramanian and Tommaso Di Noia}, year={2025}, eprint={2509.01308}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.01308}, }

基本信息

许可证: apache-2.0
语言: 英语（en）
规模: 10K 到 100K 之间

搜集汇总

数据集介绍

构建方式

在文本到SQL转换的研究领域，数据质量直接影响模型性能。本数据集基于BIRD基准的训练问题集Qtrain，通过大型语言模型生成多个思维链推理路径，每条路径末端输出一个SQL候选查询。随后进行语法正确性筛选，并借助数据库执行结果比对参考查询，标注语义正确性标签，涵盖正确、错误及执行异常三类，确保标注客观可靠。

使用方法

研究者可将本数据集用于训练SQL输出奖励模型，通过对比学习机制优化文本到SQL生成系统的语义准确性。具体使用时，需将候选查询与标注标签作为输入，训练模型预测查询正确概率。建议结合交叉验证评估模型泛化性能，并注意执行环境需与原始数据库兼容以确保结果可复现。

背景与挑战

背景概述

在自然语言处理与数据库交互的交叉领域，Text-to-SQL任务旨在将用户自然语言问题转化为可执行的SQL查询语句。GradeSQL-training-dataset-bird-unbalanced数据集由Mattia Tritto等研究人员于2025年构建，依托Apache 2.0开源协议发布。该数据集的核心研究问题是提升语义正确性判别能力，通过为大语言模型生成的候选SQL查询提供精确标注，推动语义对齐与查询可靠性评估的发展。其构建基于BIRD基准，通过链式思维推理生成多候选路径，显著增强了Text-to-SQL系统中结果一致性的监督学习能力。

当前挑战

该数据集致力于解决Text-to-SQL领域中语义等价的判定难题，即判别不同语法结构的SQL查询是否在执行结果上与黄金标准一致。构建过程中的挑战包括：大规模候选查询的生成与过滤需保证语法正确性；执行结果比对需处理数据库状态一致性及空值、重复等敏感问题；标注过程需高效处理查询执行错误及结果集比较的计算复杂度。此外，数据不平衡现象可能影响模型对少数类别的学习效果。

常用场景

经典使用场景

在文本到SQL转换的研究领域中，GradeSQL-training-dataset-bird-unbalanced数据集被广泛用于训练和评估语义正确性判别模型。该数据集通过为每个自然语言问题提供多个候选SQL查询及其正确性标签，使模型能够学习区分语义等价的查询与存在逻辑偏差的查询，从而提升文本到SQL系统的输出质量与可靠性。

解决学术问题

该数据集有效解决了文本到SQL领域中语义对齐的核心学术问题，通过执行结果比对机制替代传统语法检查，显著提高了模型对查询意图的捕捉能力。其标注体系为基于结果一致性的查询评估提供了可复现的基准，推动了判别式奖励模型在复杂数据库查询任务中的应用与发展。

实际应用

在实际应用层面，该数据集支撑的模型可部署于智能数据库交互系统、商业智能工具和自然语言数据查询平台，帮助非技术用户通过自然语言精准获取结构化数据。其能力显著降低了数据库使用门槛，提升了数据检索的效率和准确性，特别适用于金融分析、医疗数据管理等需要高可靠性查询的场景。

数据集最近研究