LLMSQL Benchmark

github2025-09-23 更新2025-09-24 收录

下载链接：

https://github.com/LLMSQL/llmsql-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

LLMSQL基准测试是一个现代化、清理和扩展的WikiSQL版本，专为评估和微调大型语言模型在文本到SQL任务上的性能而设计。它提供了更新的模式和改进的SQL注释，支持现代LLM，并包含用于评估、推理和微调的工具。

The LLMSQL Benchmark is a modernized, cleaned and expanded variant of WikiSQL, specifically designed to evaluate and fine-tune the performance of large language models (LLMs) on text-to-SQL tasks. It offers updated database schemas and refined SQL annotations, is optimized for modern LLMs, and incorporates dedicated tools for evaluation, inference and fine-tuning.

创建时间：

2025-09-22

原始信息汇总

LLMSQL Benchmark 数据集概述

数据集简介

LLMSQL Benchmark 是 WikiSQL 数据集的现代化、清理和扩展版本，专门用于评估和微调大型语言模型在文本到 SQL 任务上的性能。

数据集特点

更新了模式并改进了 SQL 注释
支持现代大型语言模型
提供评估、推理和微调工具
支持开箱即用的 Hugging Face 模型
结构设计注重可重复性和基准测试

数据集结构

数据集包含以下主要文件：

dataset/questions.jsonl（主要评估集）
train_questions.jsonl（训练集）
val_questions.jsonl（验证集）
test_questions.jsonl（测试集）
dataset/tables.jsonl（表格数据）

使用建议

主要工作流程

在完整基准测试上直接运行推理
使用评估脚本对结果进行评估

可选微调

适用于研究或领域适应
提供训练/验证/测试集划分
可使用微调脚本适配基础模型

快速开始

安装要求

Python 3.11 环境
需要安装 requirements.txt 中的依赖包

基本步骤

下载基准测试数据库
运行推理生成 SQL 预测
评估预测结果

版本信息

此为 LLMSQL Benchmark 的第一个发布版本，未来更新将包含改进、新功能和附加工具。

许可证和引用

基于原始 WikiSQL 数据集构建，使用时需引用相关论文。

其他资源

数据集也可在 HuggingFace 页面获取：https://huggingface.co/llmsql-bench

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，文本到SQL转换任务对数据集的质量提出了更高要求。LLMSQL Benchmark基于经典的WikiSQL数据集进行了现代化重构，通过众包方式收集原始数据后，系统性地优化了数据库表结构和SQL查询标注。该数据集采用分层抽样策略划分训练集、验证集和测试集，并引入自动化校验机制确保SQL语句的语法正确性。构建过程中特别注重消除原始数据中的模式不一致问题，同时扩展了查询复杂度以适应大语言模型的评估需求。

特点

作为面向大语言模型的文本到SQL评估基准，该数据集展现出多维度优势。其核心特征体现在精心设计的查询多样性上，覆盖了聚合函数、多条件筛选等典型数据库操作场景。数据集采用标准化JSONL格式存储，每个样本包含自然语言问题、数据库表结构和标准SQL答案的三元组。特别值得关注的是其完整的评估工具链，支持即插即用的模型测试流程。数据集还提供了与HuggingFace生态系统的深度集成，方便研究者进行跨模型性能对比。

使用方法

针对现代大语言模型的特点，数据集提供了灵活的使用范式。研究者可通过简单的命令行操作完成端到端评估：首先使用inference模块加载预训练模型生成SQL预测，随后通过evaluation模块对比预测结果与标准答案。数据集支持少样本学习设置，允许用户自定义提示模板和示例数量。对于需要领域适应的场景，finetune模块提供了基于TRL框架的微调脚本，可针对特定数据库模式优化模型性能。整个工作流程遵循可复现性原则，所有中间结果均采用结构化格式保存。

背景与挑战

背景概述

在自然语言处理与数据库交互领域，文本到结构化查询语言（Text-to-SQL）技术的演进始终是研究热点。LLMSQL Benchmark作为WikiSQL数据集的现代化改进版本，由Dzmitry Pihulski、Karol Charchut、Viktoria Novogrodskaia及Jan Kocoń等研究人员于2025年发布，旨在为大语言模型在Text-to-SQL任务上的评估与微调提供高质量基准。该数据集通过更新数据库模式、优化SQL注释并增强对现代大语言模型的兼容性，显著提升了自然语言界面与关系型数据库交互的准确性与泛化能力，对推动智能数据查询系统的发展具有重要影响。

当前挑战

LLMSQL Benchmark致力于解决文本到SQL转换中语义解析的复杂性挑战，包括自然语言问句与数据库表结构的精准映射、SQL语法生成的多样性控制以及跨领域泛化能力的提升。在构建过程中，团队面临原始WikiSQL数据中模式过时、标注不一致等难题，需通过大规模数据清洗、结构重组及人工校验来确保数据质量；同时，适配现代大语言模型的输入输出格式、设计可复现的评估流程亦需克服技术集成与标准化方面的障碍。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，LLMSQL Benchmark作为WikiSQL的现代化改进版本，主要用于评估大型语言模型在文本到SQL转换任务中的性能。该数据集通过提供标准化的问答对和数据库表结构，支持研究者对模型进行零样本或少样本推理测试，成为衡量模型语义解析能力的基准工具。其经典使用场景包括直接利用预训练模型生成SQL查询，并通过自动化评估脚本验证查询的准确性与执行效率，为模型优化提供可靠依据。

实际应用

在实际应用层面，LLMSQL Benchmark为智能数据库交互系统提供了关键训练与验证数据，例如在商业智能工具中实现自然语言查询数据库的功能。企业可基于该数据集开发无需SQL专业知识的用户界面，使非技术人员也能通过自然语言直接获取数据分析结果。此外，在教育领域，该数据集支持构建SQL学习辅助系统，通过实时反馈帮助初学者掌握查询语句的构建逻辑。

衍生相关工作

围绕LLMSQL Benchmark衍生的经典研究主要集中在提示策略优化、领域自适应微调以及多模态SQL生成等方向。例如，部分工作利用该数据集的划分机制探索了少样本学习对复杂查询的泛化效果；另有研究结合其评估工具开发了新型解码算法，显著提升了嵌套查询的处理精度。这些成果不仅丰富了文本到SQL的技术路线，也为跨领域知识迁移提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集