GradeSQL-training-dataset-spider-unbalanced

Hugging Face2025-09-03 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/sisinflab-ai/GradeSQL-training-dataset-spider-unbalanced

下载链接

链接失效反馈

官方服务：

资源简介：

GradeSQL训练数据集用于SPIDER数据集的GradeSQL ORM模型训练，旨在验证从自然语言问题生成的SQL查询的语义正确性。该数据集包含针对每个问题的多个SQL候选查询，每个查询都被标注为正确、错误或执行错误，以表明其是否与参考SQL查询产生相同的结果。

创建时间：

2025-08-25

原始信息汇总

GradeSQL Training Dataset for SPIDER (Unbalanced Variant) 概述

数据集简介

该数据集专为训练 GradeSQL 结果奖励模型（ORM）而构建，用于验证从自然语言问题生成的 SQL 查询的语义正确性。数据集针对 SPIDER 基准，包含每个问题的多个 SQL 候选查询，每个查询均标注了正确性标签，指示其是否与参考（黄金）SQL 查询产生相同的结果。

核心特征

目的：帮助模型区分语义正确和错误的查询，提升 Text-to-SQL 任务中与用户意图的对齐度。
内容：每个问题对应一组候选 SQL 查询，每个查询标注为正确、错误或丢弃。
规模：数据集大小介于 10K 到 100K 样本之间。
语言：英语。
许可证：Apache-2.0。

构建方法

使用大型语言模型（LLM）生成多个思维链（CoT）推理路径，每条路径以 SQL 查询结束，为每个问题生成 N 个候选查询。
过滤候选查询集，仅保留语法正确的查询。
通过执行候选查询和参考查询在关联数据库上的结果集比较，分配正确性标签：
- 正确：结果集相等。
- 错误：结果集不同。
- 丢弃：执行候选查询时出现错误。

引用信息

如果使用 GradeSQL，请引用以下论文： bibtex @misc{gradesqloutcomerewardmodels2025, title={GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models}, author={Mattia Tritto and Giuseppe Farano and Dario Di Palma and Gaetano Rossiello and Fedelucio Narducci and Dharmashankar Subramanian and Tommaso Di Noia}, year={2025}, eprint={2509.01308}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.01308}, }

搜集汇总

数据集介绍

构建方式

在文本到SQL转换研究领域，数据质量直接影响模型性能评估的有效性。本数据集基于SPIDER基准的训练问题集Qtrain，通过大型语言模型生成多条思维链推理路径，每路径末端输出一个SQL查询候选，形成初始候选集。随后采用语法过滤器保留仅结构正确的查询，并依托数据库执行结果比对机制，为每个候选查询标注语义正确性标签：当查询结果与黄金参考结果一致时标记为正确，反之为错误，执行异常者则予以剔除。

特点

该数据集的核心价值体现在其针对语义正确性判别的专门化设计。每个自然语言问题对应多个SQL候选查询，构成丰富的正负样本对比空间；标签体系严格基于执行结果等价性判定，避免了人工标注的主观偏差。数据分布呈现不平衡特性，更贴近真实场景中错误查询占多数的实际情况，为模型提供了具有挑战性的判别学习环境。

使用方法

研究者可将本数据集作为训练数据，用于微调SQL语义正确性判别模型。输入层应同时编码自然语言问题和候选SQL查询，通过神经网络计算语义匹配度；输出层需采用二分类结构预测正确概率。训练时应关注类别不平衡问题，建议采用加权损失函数或重采样策略。验证阶段需在保持数据分布一致性的测试集上评估模型对未见问题的泛化能力。

背景与挑战

背景概述

文本到SQL转换是自然语言处理与数据库交互的核心研究方向，旨在将自然语言问题转化为可执行的SQL查询语句。GradeSQL-training-dataset-spider-unbalanced数据集由Mattia Tritto等研究人员于2025年构建，依托SPIDER基准数据集，专注于训练结果奖励模型以评估生成SQL的语义正确性。该数据集通过大规模语言模型生成多候选查询并基于执行结果标注正确性，显著提升了文本到SQL任务中语义对齐的可靠性，对推动对话式数据库检索系统的研究具有重要影响。

当前挑战

该数据集致力于解决文本到SQL语义正确性评估的挑战，包括复杂查询的语义等价性判断、跨数据库模式泛化以及结果集比对中的逻辑一致性难题。构建过程中的挑战主要体现在多候选查询生成的质量控制、执行环境的高效部署以处理大规模查询验证，以及错误处理机制的设计，确保标注结果的准确性与可靠性。

常用场景

经典使用场景

在自然语言处理与数据库交互的交叉领域，GradeSQL-training-dataset-spider-unbalanced数据集被广泛用于训练文本到SQL转换模型中的语义正确性判别模块。该数据集通过为每个自然语言问题提供多个候选SQL查询及其正确性标签，使模型能够学习区分语义等价的查询与存在逻辑偏差的查询，显著提升了生成SQL与用户意图的匹配精度。

衍生相关工作

基于该数据集衍生的经典工作包括基于执行结果奖励的SQL排序框架GradeSQL，以及结合强化学习的语义对齐优化方法。后续研究进一步扩展了其标注规则至多数据库场景，并发展了基于查询执行计划的细粒度判别模型，推动了Text-to-SQL领域从语法正确性向语义鲁棒性的研究转型。

数据集最近研究