five

birdsql/livesqlbench-base-lite

收藏
Hugging Face2026-03-02 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/birdsql/livesqlbench-base-lite
下载链接
链接失效反馈
官方服务:
资源简介:
LiveSQLBench-Base-Lite是一个由香港大学BIRD团队和谷歌云维护的动态、无污染的基准数据集,用于评估大型语言模型在处理复杂的现实世界文本到SQL任务上的性能。该数据集包含了18个终端用户级别的数据库,270个任务(包括180个SELECT仅限查询任务和90个管理任务),以及HKB-JSON和SQL中的JSON操作,供试用。

LiveSQLBench-Base-Lite is a dynamic, contamination-free benchmark maintained by the BIRD Team at HKU and Google Cloud, designed to evaluate the performance of large language models on complex real-world text-to-SQL tasks. The dataset includes 18 end-user level databases, 270 tasks (including 180 SELECT-only query tasks and 90 management tasks), HKB-JSON, and JSON operations in SQL for trial.
提供机构:
birdsql
搜集汇总
数据集介绍
main_image_url
构建方式
在文本到SQL任务的评估领域,数据污染问题长期困扰着研究社区。LiveSQLBench-Base-Lite数据集由香港大学BIRD团队与Google Cloud联合构建,旨在提供一个动态且免于污染的基准测试。该数据集基于持续更新的真实CSV数据集,动态构建了18个终端用户级别的数据库,并围绕这些数据库精心设计了270个任务,涵盖180个SELECT查询与90个管理操作。每个任务均包含明确的用户查询与标注的金标准SQL语句,同时为每个数据库构建了层次化知识库,知识条目之间可能存在依赖关系,以模拟多跳推理场景。数据集提供了结构化JSON与非结构化文档两种知识库格式,并通过PostgreSQL模板与Docker容器实现自动化评估,确保评分过程的可复现性与准确性。
特点
该数据集的核心创新在于其独特的污染预防机制与持续演化特性。不同于传统静态数据集,LiveSQLBench-Base-Lite通过分阶段发布与隐藏测试集设计,有效规避了数据泄露风险,每个版本的隐藏测试集将转化为下一版本的开放开发集,形成良性循环。数据集首次完整覆盖SQL操作谱系,不仅支持传统的SELECT查询,还囊括了CRUD等数据库管理操作,为评估大语言模型在真实场景下的综合能力提供了更全面的视角。每个数据库配备的层次化知识库要求模型具备多跳推理能力,而数据库规模从终端用户级别(约127列)到工业级别(约1000列)的跨度,则有效检验了模型在面对不同复杂度数据库时的可扩展性。
使用方法
研究人员可通过Git克隆命令从HuggingFace仓库直接下载数据集文件livesqlbench_data.jsonl及数据库元文件,包括模式定义、层次化知识库与列含义说明。为防范自动爬虫导致的数据泄露,金标准SQL、测试用例及外部知识等敏感字段需通过发送主题为[livesqlbench-base-lite GT&Test Cases]的邮件至指定邮箱获取自动回复。数据库的DDL构建脚本存放于Google Drive,完整的评估流程与使用细节则收录于项目的GitHub仓库。数据集的每项任务均包含预处理与清理SQL语句,便于在PostgreSQL环境中进行状态管理,支持通过Docker容器实现快速部署与标准化评估。
背景与挑战
背景概述
在自然语言处理与数据库交叉领域,文本到SQL(Text-to-SQL)任务旨在将自然语言查询自动转化为可执行的结构化查询语句,是连接人类语言与数据管理系统的关键技术。然而,现有基准测试普遍面临数据污染、静态评估及查询多样性不足等局限,难以真实反映大语言模型在复杂、动态且贴近实际应用场景中的泛化能力。在此背景下,由香港大学BIRD团队与Google Cloud于2025年联合推出的LiveSQLBench-Base-Lite数据集应运而生。该数据集作为BIRD-SQL Pro v0.5的轻量版,首次系统性地引入无污染、持续演进的评估框架,涵盖18个终端用户级数据库、270个任务(包含SELECT查询与CRUD管理操作),并创新性地提供层级知识库以支持多跳推理,为评估LLM在真实商业智能与数据库操作场景下的表现奠定了坚实基础。
当前挑战
LiveSQLBench-Base-Lite所应对的核心挑战在于,现有Text-to-SQL基准多聚焦于简单的SELECT查询,且数据集静态固定,难以避免模型通过记忆而非推理完成任务的倾向。该数据集通过三大创新设计直面这些困境:其一,构建动态、无污染的评估环境,每轮发布均包含隐藏测试集,并通过持续更新数据库与查询任务,从根源上遏制数据泄露与过拟合;其二,首次覆盖完整的SQL操作谱系,不仅包含传统BI查询,更纳入CRUD等数据库管理任务,大幅提升任务复杂度与实用性;其三,引入具有依赖关系的层级知识库,要求模型在缺乏显式关联信息的情况下进行多步推理,显著增加了逻辑链条的深度与不确定性。此外,数据集构建过程中,团队需从海量实时CSV数据中动态提取并标准化数据库模式,同时确保用户查询的歧义性与标注SQL的黄金标准之间的精确映射,以及自动化评估系统对复杂操作(如UPDATE、DELETE)的可复现性验证,均构成了技术与工程层面的严峻挑战。
常用场景
经典使用场景
在自然语言处理与数据库交叉领域,LiveSQLBench-Base-Lite 被广泛应用于评估大语言模型在复杂、真实世界文本转SQL任务上的表现。该数据集精心设计了18个终端用户级别的数据库和270个任务,涵盖商业智能查询与CRUD管理操作,并配备了层次化知识库以检验模型的多跳推理能力。研究者通常利用其提供的无污染、动态更新的测试集,结合自动化评估工具,对模型生成的SQL语句进行精确的语义与执行正确性验证,从而衡量模型在真实数据库交互场景中的泛化能力与鲁棒性。
解决学术问题
该数据集有效解决了传统文本转SQL基准测试中普遍存在的数据污染与静态评估问题。通过持续发布新的数据库和任务,并设置隐藏测试集,它确保了评估的公平性与时效性。同时,LiveSQLBench-Base-Lite 首次将CRUD操作纳入评估体系,填补了以往仅关注SELECT查询的研究空白,推动了对大语言模型完整SQL执行能力的系统性探索。其引入的层次化知识库还促进了对模型在复杂依赖关系下进行多步推理的深入研究,为构建更智能的数据库交互代理提供了关键基准。
衍生相关工作
基于LiveSQLBench-Base-Lite,衍生出多项具有影响力的研究工作。其中,BIRD-Interact作为动态人机交互的文本转SQL基准,已被ICLR 2026接收为Oral论文,进一步探索了人类与模型协作解决复杂查询任务的范式。此外,该数据集还催生了针对工业级大规模数据库的LiveSQLBench-Large-v1版本,以及支持SQLite方言的轻量级变体,推动了模型在不同数据库规模和方言上的迁移能力研究。这些衍生工作共同构建了一个从学术评估到实际部署的完整生态系统,加速了文本转SQL领域的技术迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作