GradeSQL-training-dataset-spider-balanced

Hugging Face2025-09-03 更新2025-09-04 收录

下载链接：

https://huggingface.co/datasets/sisinflab-ai/GradeSQL-training-dataset-spider-balanced

下载链接

链接失效反馈

官方服务：

资源简介：

GradeSQL训练数据集用于SPIDER数据集，旨在训练GradeSQL ORM模型，以验证从自然语言问题生成的SQL查询的语义正确性。该数据集包含多个每个问题的SQL候选查询，每个查询都标注有正确性标签，表明它是否与参考SQL查询产生相同的结果。

创建时间：

2025-08-25

原始信息汇总

GradeSQL Training Dataset for SPIDER (Balanced Variant) 数据集概述

数据集描述

该数据集专为训练 GradeSQL 结果奖励模型（ORM）而构建，用于验证从自然语言问题生成的 SQL 查询的语义正确性。数据集针对 SPIDER 基准，每个问题包含多个 SQL 候选查询，每个查询均标注有正确性标签，指示其是否与参考（黄金）SQL 查询产生相同的结果。

数据集旨在帮助模型学习区分语义正确与不正确的查询，从而提升文本到 SQL 任务中与用户意图的对齐程度。

构建方法

使用文本到 SQL 基准的训练问题集 Qtrain。
针对 Qtrain 中的每个问题，通过提示大型语言模型（LLM）生成多个思维链（CoT）推理路径，每条路径以 SQL 查询结束，从而产生 N 个 SQL 候选查询。
每个问题的候选查询集表示为 Cq = {c1, c2, ..., cN}。
候选查询集经过过滤，仅保留语法正确的查询。
通过执行候选查询 ci 和黄金参考查询 gq 于关联数据库，生成结果集 R(ci) 和 R(gq)，以分配正确性标签。
标签规则包括：
- correct：当 R(ci) 等于 R(gq)
- incorrect：当 R(ci) 不同于 R(gq)
- discarded：当执行 ci 导致错误

引用信息

如果研究中使用 GradeSQL，请引用以下论文： bibtex @misc{gradesqloutcomerewardmodels2025, title={GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models}, author={Mattia Tritto and Giuseppe Farano and Dario Di Palma and Gaetano Rossiello and Fedelucio Narducci and Dharmashankar Subramanian and Tommaso Di Noia}, year={2025}, eprint={2509.01308}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.01308}, }

基本信息

许可证: apache-2.0
语言: 英语（en）
数据规模: 10K 到 100K 之间

搜集汇总

数据集介绍

构建方式

在文本到SQL转换的研究领域中，GradeSQL-training-dataset-spider-balanced数据集的构建采用了系统化的方法。首先基于SPIDER基准的训练问题集Qtrain，利用大型语言模型生成多个思维链推理路径，每条路径最终输出一个SQL候选查询。随后通过语法正确性筛选保留有效查询，并借助数据库执行结果比对标注语义正确性标签，正确与否取决于候选查询与参考查询的结果集是否一致，执行错误的样本则被丢弃。

使用方法

该数据集主要用于训练SQL结果奖励模型，以提升文本到SQL任务中语义对齐的准确性。研究人员可将其作为监督学习数据，训练模型识别语义正确的SQL查询；亦可作为验证集评估模型对查询语义等价性的判断能力。使用时需加载对应的数据库执行环境以确保结果验证的可靠性，适用于序列排序、强化学习奖励建模等下游应用场景。

背景与挑战

背景概述

文本到SQL转换是自然语言处理与数据库交互的核心研究方向，旨在将自然语言问题转化为可执行的SQL查询语句。GradeSQL-training-dataset-spider-balanced数据集由Mattia Tritto等研究人员于2025年构建，依托SPIDER基准数据集，专注于训练语义正确性评估模型。该数据集通过大规模语言模型生成多候选查询，并结合执行结果标注机制，为语义对齐研究提供了重要支撑，显著提升了文本到SQL任务中用户意图理解的准确性。

当前挑战

文本到SQL领域长期面临语义对齐的复杂性挑战，即模型需区分逻辑等价但表达各异的查询，同时避免执行错误或结果偏差。在数据集构建过程中，需确保候选查询的语法有效性，并通过精确的结果集比对实现标注一致性，这要求高效的查询执行框架和严格的等价性判定机制，以保障标签的可靠性。

常用场景

经典使用场景

在文本到SQL转换的研究中，GradeSQL-training-dataset-spider-balanced数据集被广泛用于训练和验证语义正确性判别模型。该数据集通过为每个自然语言问题生成多个候选SQL查询，并标注其执行结果与标准答案的一致性，为模型提供了判别查询语义准确性的监督信号。研究人员利用该数据集优化排序模型，使其能够从候选查询中识别出与用户意图最匹配的正确SQL语句，显著提升了文本到SQL系统的可靠性。

解决学术问题

该数据集有效解决了文本到SQL领域中语义对齐的核心学术问题。传统方法仅关注语法正确性，而该数据集通过执行结果比对，首次实现了对查询语义等价性的量化评估。它帮助研究者构建了更精确的奖励模型，解决了大型语言模型生成SQL时存在的语义漂移问题，为基于结果监督的查询排序机制奠定了理论基础，推动了语义解析领域向更可靠的方向发展。

实际应用

在实际应用层面，该数据集支撑的模型已广泛应用于智能数据库查询系统和自然语言交互界面。企业利用其构建的语义验证模块，能够自动将用户自然语言问题转换为准确的结构化查询，大幅降低数据库使用门槛。在金融分析、商业智能等领域，这种技术使得非技术人员也能通过自然语言快速获取精准的数据洞察，提升了数据查询的效率和准确性。

数据集最近研究