five

GradeSQL-training-dataset-bird-unbalanced

收藏
Hugging Face2025-09-03 更新2025-09-04 收录
下载链接:
https://huggingface.co/datasets/sisinflab-ai/GradeSQL-training-dataset-bird-unbalanced
下载链接
链接失效反馈
官方服务:
资源简介:
GradeSQL训练数据集BIRD版本(不平衡变体)用于训练GradeSQL结果奖励模型(ORM),以验证从自然语言问题生成的SQL查询的语义正确性。该数据集包含针对每个问题的多个SQL候选查询,每个查询都带有正确性标签,表示它是否与参考(金标准)SQL查询产生相同的结果。
创建时间:
2025-08-25
原始信息汇总

GradeSQL Training Dataset for BIRD (Unbalanced Variant) 数据集概述

数据集描述

该数据集用于训练 GradeSQL 结果奖励模型(ORM),针对 BIRD 数据集,用于验证从自然语言问题生成的 SQL 查询的语义正确性。每个问题包含多个 SQL 候选查询,每个查询都标注了正确性标签,指示其是否与参考(黄金)SQL 查询产生相同的结果。

该数据集帮助模型学习区分语义正确和错误的查询,提高文本到 SQL 任务中与用户意图的对齐度。

构建方法

  • 对于文本到 SQL 基准,训练集问题表示为 Qtrain。
  • 对于 Qtrain 中的每个问题,通过提示大型语言模型(LLM)生成多个思维链(CoT)推理路径来生成 N 个 SQL 候选查询。每个路径以 SQL 查询结束。
  • 这导致每个问题有一个候选查询集:Cq = {c1, c2, ..., cN}。
  • 每个候选查询集经过过滤,仅保留语法正确的查询。
  • 为了分配正确性标签,候选查询 ci 和黄金参考查询 gq 都在相关数据库上执行,产生结果集 R(ci) 和 R(gq)。
  • 标注规则如下:
    • 如果 R(ci) 等于 R(gq),则标记为 correct
    • 如果 R(ci) 不同于 R(gq),则标记为 incorrect
    • 如果执行 ci 导致错误,则标记为 discarded

引用信息

如果您在研究中使用 GradeSQL,请引用以下论文:

bibtex @misc{gradesqloutcomerewardmodels2025, title={GradeSQL: Outcome Reward Models for Ranking SQL Queries from Large Language Models}, author={Mattia Tritto and Giuseppe Farano and Dario Di Palma and Gaetano Rossiello and Fedelucio Narducci and Dharmashankar Subramanian and Tommaso Di Noia}, year={2025}, eprint={2509.01308}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.01308}, }

基本信息

  • 许可证: apache-2.0
  • 语言: 英语(en)
  • 规模: 10K 到 100K 之间
搜集汇总
数据集介绍
main_image_url
构建方式
在文本到SQL转换的研究领域,数据质量直接影响模型性能。本数据集基于BIRD基准的训练问题集Qtrain,通过大型语言模型生成多个思维链推理路径,每条路径末端输出一个SQL候选查询。随后进行语法正确性筛选,并借助数据库执行结果比对参考查询,标注语义正确性标签,涵盖正确、错误及执行异常三类,确保标注客观可靠。
使用方法
研究者可将本数据集用于训练SQL输出奖励模型,通过对比学习机制优化文本到SQL生成系统的语义准确性。具体使用时,需将候选查询与标注标签作为输入,训练模型预测查询正确概率。建议结合交叉验证评估模型泛化性能,并注意执行环境需与原始数据库兼容以确保结果可复现。
背景与挑战
背景概述
在自然语言处理与数据库交互的交叉领域,Text-to-SQL任务旨在将用户自然语言问题转化为可执行的SQL查询语句。GradeSQL-training-dataset-bird-unbalanced数据集由Mattia Tritto等研究人员于2025年构建,依托Apache 2.0开源协议发布。该数据集的核心研究问题是提升语义正确性判别能力,通过为大语言模型生成的候选SQL查询提供精确标注,推动语义对齐与查询可靠性评估的发展。其构建基于BIRD基准,通过链式思维推理生成多候选路径,显著增强了Text-to-SQL系统中结果一致性的监督学习能力。
当前挑战
该数据集致力于解决Text-to-SQL领域中语义等价的判定难题,即判别不同语法结构的SQL查询是否在执行结果上与黄金标准一致。构建过程中的挑战包括:大规模候选查询的生成与过滤需保证语法正确性;执行结果比对需处理数据库状态一致性及空值、重复等敏感问题;标注过程需高效处理查询执行错误及结果集比较的计算复杂度。此外,数据不平衡现象可能影响模型对少数类别的学习效果。
常用场景
经典使用场景
在文本到SQL转换的研究领域中,GradeSQL-training-dataset-bird-unbalanced数据集被广泛用于训练和评估语义正确性判别模型。该数据集通过为每个自然语言问题提供多个候选SQL查询及其正确性标签,使模型能够学习区分语义等价的查询与存在逻辑偏差的查询,从而提升文本到SQL系统的输出质量与可靠性。
解决学术问题
该数据集有效解决了文本到SQL领域中语义对齐的核心学术问题,通过执行结果比对机制替代传统语法检查,显著提高了模型对查询意图的捕捉能力。其标注体系为基于结果一致性的查询评估提供了可复现的基准,推动了判别式奖励模型在复杂数据库查询任务中的应用与发展。
实际应用
在实际应用层面,该数据集支撑的模型可部署于智能数据库交互系统、商业智能工具和自然语言数据查询平台,帮助非技术用户通过自然语言精准获取结构化数据。其能力显著降低了数据库使用门槛,提升了数据检索的效率和准确性,特别适用于金融分析、医疗数据管理等需要高可靠性查询的场景。
数据集最近研究
最新研究方向
在Text-to-SQL领域,GradeSQL-training-dataset-bird-unbalanced数据集正推动基于结果奖励模型(ORM)的语义对齐研究。该数据集通过大规模语言模型生成的多候选SQL查询及其执行结果标签,为模型区分语义正确性提供了关键训练资源。当前研究聚焦于提升复杂数据库查询的语义理解能力,结合链式思维推理技术,显著增强了模型对用户意图的捕捉精度。这一进展不仅缓解了传统文本到SQL任务中的幻觉问题,还为跨领域数据库的泛化能力奠定了理论基础,受到学术界与工业界的广泛关注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作