LiveSQLBench-Base-Lite
收藏github2025-06-03 更新2025-06-04 收录
下载链接:
https://github.com/bird-bench/livesqlbench
下载链接
链接失效反馈官方服务:
资源简介:
LiveSQLBench-Base-Lite是一个无污染、持续演进的基准测试,旨在评估LLMs在复杂、真实世界的文本到SQL任务上的表现。它包含18个终端用户级别的数据库和270个任务(180个仅SELECT任务,90个管理任务)。每个任务都涉及基于外部知识的明确且直接的用户查询,SQL语句复杂度中等至困难。
LiveSQLBench-Base-Lite is a pollution-free, continuously evolving benchmark designed to evaluate the performance of LLMs in complex, real-world text-to-SQL tasks. It includes 18 terminal user-level databases and 270 tasks (180 being SELECT-only tasks and 90 being administrative tasks). Each task involves explicit and direct user queries based on external knowledge, with SQL statement complexity ranging from moderate to difficult.
创建时间:
2025-05-21
原始信息汇总
LiveSQLBench数据集概述
数据集基本信息
- 名称: LiveSQLBench (BIRD-SQL Pro v0.5)
- 许可证: CC By SA 4.0
- 最新版本: LiveSQLBench-Base-Lite (2025-05-30发布)
- 维护机构: BIRD Team & Google Cloud
- 联系方式: bird.bench25@gmail.com
核心特性
-
动态数据库构建
- 从定期更新的CSV数据集动态构建
- 包含基础版(用户级)和大型版(工业级)数据库
-
真实用户查询与SQL
- 每个任务包含明确的用户查询和标注的黄金标准SQL语句
- 查询基于外部知识库,SQL语句复杂度中等到困难
-
上下文推理(HKB)
- 每个数据库包含分层知识库(HKB)
- 提供结构化JSON和非结构化文档两种格式
-
完整SQL支持
- 支持SELECT(商业智能)和CRUD(数据库管理操作)查询
-
自动化评估
- 通过PostgreSQL模板和docker快速评估
- SELECT任务使用Soft EX指标评估
- DBA任务使用定制测试用例评估
当前版本详情(LiveSQLBench-Base-Lite)
- 数据库数量: 18个(用户级)
- 任务数量: 270个
- 180个SELECT-only任务
- 90个Management任务
- 知识库格式: HKB-JSON和JSON操作SQL
- 任务特点: 基于外部知识的明确用户查询,SQL复杂度中等到困难
数据字段说明
instance_id: 唯一任务标识符selected_database: 关联数据库名称query: 用户查询sol_sql: 标准SQL解决方案external_knowledge: 所需外部知识IDpreprocess_sql: SQL设置查询clean_up_sql: 重置数据库状态的SQL查询test_cases: 验证SQL的测试用例category: "Query"(SELECT)或"Management"(CRUD)high_level: 是否包含高级描述conditions: 指示小数/不同条件difficulty_tier: 任务难度等级(简单/中等/挑战)
评估方法
-
环境准备
- 需要PostgreSQL数据库和docker环境
- 支持Python 3.10+和OpenAI 1.40+
-
评估流程
- 生成提示
- LLM推理
- 在docker容器中运行评估脚本
模型性能(2025-05-28)
| 排名 | 模型 | 成功率(%) | 平均成本(美元/任务) |
|---|---|---|---|
| 1 | o3-mini | 44.81 | 0.0233 |
| 2 | GPT-4.1 | 40.00 | 0.0336 |
| 3 | o4-mini | 37.80 | 0.0231 |
未来版本计划
- LiveSQLBench-Base-Full: 600个BI任务+200个管理任务
- LiveSQLBench-Large-Lite: 工业级数据库(1340+列)
- LiveSQLBench-Large-Full: 全面的大规模数据集
搜集汇总
数据集介绍

构建方式
在数据库与自然语言处理交叉领域的研究中,LiveSQLBench-Base-Lite数据集通过动态构建技术实现了真实场景的模拟。该数据集基于18个终端用户级数据库,采用专家协作模式从持续更新的CSV数据源生成,每个数据库均配备层次化知识库(HKB)支持多跳推理。数据构建过程严格遵循污染控制原则,通过JSON结构化与文档非结构化双格式存储外部知识,确保270项任务(含180项SELECT查询与90项管理任务)的查询语句均锚定在外部知识体系上,并配备预处理SQL、清理SQL及可验证测试用例。
特点
作为面向文本到SQL转换任务的标杆数据集,其显著特征体现在三维度差异化设计:查询复杂度覆盖中高难度层级,任务类型囊括商业智能查询与CRUD操作全谱系,知识表征融合结构化JSON与非结构化文档双模态。每个任务实例配备唯一标识符、关联数据库名称及分类标签,特别设置小数处理与去重条件标记,并通过难度分级体系(简单/中等/挑战)实现细粒度评估。数据集采用动态演进机制,隐藏测试集周期性转化为开放开发集,保障评估的持续性与公平性。
使用方法
使用该数据集需通过HuggingFace平台获取基础数据文件,完整标注字段需经邮件申请获取。评估环境采用Docker容器化部署PostgreSQL数据库,通过自动化脚本实现提示生成、大模型推理与结果验证全流程。用户需配置Python 3.10+环境及OpenAI API密钥,运行基准测试后,系统将输出至指定目录并生成成功率与成本指标。数据集支持软EX指标评估SELECT任务,针对DBA任务设计定制化测试用例,用户可通过数据库工具函数直接交互验证SQL执行结果。
背景与挑战
背景概述
LiveSQLBench-Base-Lite数据集由香港大学(HKU)与Google Cloud联合研发,于2025年5月正式发布,旨在构建一个动态演进、无污染的文本到SQL转换基准测试平台。该数据集聚焦复杂真实场景下的数据库查询任务,涵盖商业智能(BI)和数据库管理操作(CRUD)等多样化需求,通过18个终端用户级数据库和270项任务,推动大型语言模型在结构化数据交互领域的性能边界。其创新性体现在动态更新的分层知识库(HKB)设计,以及首次实现全SQL谱系支持,为数据库系统与自然语言处理交叉研究提供了标准化评估框架。
当前挑战
该数据集核心挑战体现在两个维度:领域问题层面,需解决真实场景中模糊用户查询到精确SQL语句的转换难题,特别是涉及多跳推理的中高复杂度语句生成;构建过程层面,动态数据库架构要求持续维护数据一致性,而工业级规模(1340+列)的数据集构建需平衡计算资源消耗与标注质量。此外,分层知识库的依赖关系建模和自动化评估体系的可靠性验证,均为技术实现的关键瓶颈。
常用场景
经典使用场景
在数据库管理与自然语言处理交叉领域,LiveSQLBench-Base-Lite数据集为评估大型语言模型在复杂文本到SQL转换任务中的表现提供了标准化测试平台。其精心设计的18个终端用户级数据库和270项任务,涵盖商业智能查询与数据库管理操作,模拟了真实业务场景中从自然语言到结构化查询的完整流程。该数据集通过动态构建的实时数据库和分层知识库,有效还原了企业级数据环境中常见的多表关联、条件筛选及数据操作需求。
解决学术问题
该数据集系统性地解决了文本到SQL转换领域三大核心问题:跨领域语义解析的泛化性评估、复杂数据库模式下的上下文推理能力测量,以及管理类SQL语句生成的准确性验证。通过引入分层知识库和验证测试用例,为学术界提供了量化模型在真实场景中处理模糊用户查询、多跳推理及数据库状态维护能力的可靠基准,显著推进了语义解析与数据库交互技术的标准化研究进程。
衍生相关工作
基于该数据集构建的评估体系已催生多项重要研究,包括香港大学提出的O3-Mini模型架构优化方案,以及Google Cloud研发的多阶段SQL生成验证框架。其隐藏测试集机制启发了后续Benchmark设计中的防过拟合策略,相关数据构造方法被Text-to-SQL领域后续工作广泛引用,成为评估模型跨领域迁移能力的事实标准。
以上内容由遇见数据集搜集并总结生成



