SQLyzr

Name: SQLyzr
Creator: 滑铁卢大学
Published: 2026-04-28 01:45:13
License: 暂无描述

arXiv2026-04-28 更新2026-04-29 收录

下载链接：

https://github.com/sepideh-abedini/SQLyzr

下载链接

链接失效反馈

官方服务：

资源简介：

SQLyzr是由滑铁卢大学研发的文本到SQL模型评估基准数据集，包含20,979个自然语言问题与SQL查询的配对数据。该数据集整合了Spider、BIRD和BEAVER等主流基准的286个数据库，支持SQLite和MySQL引擎，并采用六类36子类的SQL查询分类体系。通过人工标注确保数据质量，并引入执行准确性、结构复杂度等多维评估指标，旨在解决现有基准在现实场景适用性、细粒度诊断等方面的不足，为文本到SQL模型的迭代优化提供科学评估工具。

提供机构：

滑铁卢大学

创建时间：

2026-04-23

原始信息汇总

数据集概述：SQLyzr

数据集名称：SQLyzr
主要用途：一个综合性的Text-to-SQL基准测试框架，用于评估和比较不同模型在将自然语言问题转换为SQL查询方面的性能。

包含的基准数据集：

Spider Benchmark：来自耶鲁大学的Spider基准。
Bird Benchmark：BIRD基准。
Beaver Benchmark：Beaver基准。
SQLyzr：以上三个数据集的组合。

数据规模：

提供样本数据（sample_data）：包含SPIDER、BIRD和BEAVER数据集的少量样本，用于实验和验证设置。
完整基准数据：需要从外部下载（下载链接未在README中提供），下载后解压为data目录，目录结构为：

repo ├── clean_data │ ├── beaver │ ├── bird │ └── spider

数据格式与数据库类型：

Spider和BIRD使用SQLite数据库。
Beaver使用MySQL数据库（需要额外启动MySQL Docker容器）。

评估与配置：

支持多种评估指标：Execution Accuracy（执行准确率）、Relaxed Execution Accuracy（宽松执行准确率）、Exact Match（精确匹配）、Execution Time（执行时间）、Gold Execution Time（黄金执行时间）、Token Usage（令牌使用量）、Category Distribution（类别分布）。
可配置的管道阶段包括：缩放（scale）、验证（verify）、预测（predict）、评估（eval）、图表生成（charts）、错误分析（analysis）、数据增强（augment）。
支持集成自定义Text-to-SQL模型（如DIN-SQL、DAIL-SQL或用户自定义模型）。

其他关键信息：

提供可视化图表生成功能，如整体得分对比图、各类评估指标图。
支持迭代次数和LLM温度参数的配置。
拥有自动化错误修复建议生成功能，针对低准确率的子类别可自动生成新的数据点进行数据增强。

搜集汇总

数据集介绍

构建方式

在自然语言接口与关系数据库管理系统融合不断深入的背景下，文本到SQL模型的性能评估亟需超越传统单一正确率指标的框架。SQLyzr平台通过整合Spider、BIRD和BEAVER三大基准中的共286个数据库与20,979个自然语言-SQL配对数据点，构建了一个涵盖六类36子类SQL查询语法分类体系的工作负载。该平台利用抽象语法树遍历技术自动对查询进行细粒度分类，并将约11%的数据预留用于上下文学习的演示示例，其余用于评估。此外，SQLyzr通过基于SDV框架的生成式模型为数据库合成服从原始统计分布的新行，实现数据库规模的灵活缩放，同时支持将工作负载对齐至SQLShare等真实世界查询分布，从而构建出既能反映实际使用模式又可弹性扩展的评测数据集。

特点

SQLyzr的核心特点在于其多维度的评测视角与自适应迭代能力，突破了传统基准的静态局限。该平台不仅提供执行准确率和精确匹配等传统正确性指标，还独创性地引入了复杂度一致性、执行时间一致性与令牌消耗量三项新度量，分别从生成查询的冗余结构、运行时效率和大模型调用成本三个关键维度刻画模型行为。更为独特的是，SQLyzr支持基于语法子类别表现的工作负载增强机制：系统自动识别模型表现薄弱的查询子类，并定向生成新的问题-SQL对以扩充测试集，使基准能够随模型迭代演变而动态调整难度。同时，错误分析模块通过对生成查询施加系列变换来识别由于自然语言歧义导致的假阳性错误，并提供修复建议，从而将评估从简单的评分工具提升为诊断与改进的辅助平台。

使用方法

使用SQLyzr进行模型评测时，用户可通过图形界面或命令行接口灵活配置评估流程。首先在仪表盘中选择待评测的文本到SQL模型（如DIN-SQL、DAIL-SQL或自定义模型）、目标工作负载、评估度量组合以及数据库缩放因子等参数，随后启动多阶段流水线执行。平台支持同步与异步批量两种模式与大语言模型交互，并通过并行处理和缓存机制加速评测。执行完毕后，系统自动生成从聚合评分到子类别细粒度表现的层级化报告，以可视化图表呈现模型在各查询类型上的优劣。用户还可基于首次评测结果设定分数阈值，触发工作负载增强流程以定向提升测试集难度；或者对比不同数据库规模下的性能衰减曲线，从而在真实部署条件下全面评估模型的鲁棒性与可扩展性。

背景与挑战

背景概述

随着大型语言模型（LLMs）的广泛应用，Text-to-SQL技术在将自然语言转化为可执行SQL查询方面取得了显著进步，为关系数据库的非专业用户提供了更为便捷的数据访问途径。在此背景下，加拿大滑铁卢大学的Sepideh Abedini与M. Tamer Özsu于2026年提出了SQLyzr，一个旨在弥补现有基准测试不足的综合评估平台。该平台聚焦于如何超越单一聚合得分，实现细粒度的模型行为分析，其核心研究问题在于：如何构建一个能够适应真实世界工作负载、支持数据库规模伸缩、并具备自适应迭代能力的评测体系。SQLyzr整合了Spider、BIRD和BEAVER等既有数据集，通过引入多样化的评价指标与细粒度查询分类，显著提升了Text-to-SQL模型评估的诊断价值与实用性，为该领域的模型开发与优化提供了强有力的支撑。

当前挑战

SQLyzr所应对的核心挑战在于现有Text-to-SQL基准测试的诸多局限。首先，在领域问题层面，传统基准仅依赖单一的正确性得分，无法揭示模型在不同查询类型（如嵌套、聚合等）上的表现差异，且忽视了执行效率与结构复杂性等生产环境中的关键因素；同时，静态的小规模数据库和脱离真实SQL使用模式的工作负载，使得评估结果难以反映模型在实际部署中的性能。其次，在平台构建过程中，SQLyzr面临如何整合来自多个异构基准的数据、设计一套覆盖六大类别及36个子类别的SQL分类法、以及实现自动化数据库扩缩与工作负载对齐的技术挑战。此外，构建一个支持可配置评估、批量LLM调用、并行加速及实时错误分析的模块化平台，并确保其易用性与可扩展性，亦是开发中的重大挑战。

常用场景

经典使用场景

在自然语言处理与数据库交互的交叉领域中，Text-to-SQL任务旨在将用户的自然语言表述转化为可执行的SQL查询语句，从而降低非专业用户访问结构化数据的门槛。SQLyzr作为一个全面而精细的评测平台，其最经典的使用场景是对各类Text-to-SQL模型进行多维度、细粒度的性能评估与对比分析。研究者可利用SQLyzr内置的多样化评价指标，如执行准确率、精确匹配、复杂度一致性、执行时间一致性以及令牌使用量，从正确性、效率、结构复杂性和生成成本等多个层面剖析模型的表现。通过其细粒度查询分类体系，用户能够识别模型在不同查询类别和子类别上的强弱项，从而获得超越单一聚合分数的深度洞察。

衍生相关工作

SQLyzr的诞生催生了若干富有价值的衍生研究方向与工具设计思路。其一，其细粒度SQL分类体系为后续工作提供了可复用的结构化分析框架，启发研究者开发基于查询结构复杂度的自适应评测方案。其二，平台所倡导的迭代式工作负载增强机制，为构建能够动态成长的测试套件铺平了道路，后续工作可在此基础上探索基于模型弱点自动生成对抗样本的策略，形成更具挑战性的评测基准。其三，SQLyzr集成的数据库规模缩放与工作负载对齐理念，促进了面向真实部署条件的Text-to-SQL鲁棒性研究，衍生出诸如查询效率预算分配、代价感知模型优化等方向。这些衍生工作共同推动了一个更加系统化、生态化的Text-to-SQL测评体系的形成。

数据集最近研究