LiveSQLBench-Base-Lite

github2025-06-03 更新2025-06-04 收录

下载链接：

https://github.com/bird-bench/livesqlbench

下载链接

链接失效反馈

官方服务：

资源简介：

LiveSQLBench-Base-Lite是一个无污染、持续演进的基准测试，旨在评估LLMs在复杂、真实世界的文本到SQL任务上的表现。它包含18个终端用户级别的数据库和270个任务（180个仅SELECT任务，90个管理任务）。每个任务都涉及基于外部知识的明确且直接的用户查询，SQL语句复杂度中等至困难。

LiveSQLBench-Base-Lite is a pollution-free, continuously evolving benchmark designed to evaluate the performance of LLMs in complex, real-world text-to-SQL tasks. It includes 18 terminal user-level databases and 270 tasks (180 being SELECT-only tasks and 90 being administrative tasks). Each task involves explicit and direct user queries based on external knowledge, with SQL statement complexity ranging from moderate to difficult.

创建时间：

2025-05-21

原始信息汇总

LiveSQLBench数据集概述

数据集基本信息

名称: LiveSQLBench (BIRD-SQL Pro v0.5)
许可证: CC By SA 4.0
最新版本: LiveSQLBench-Base-Lite (2025-05-30发布)
维护机构: BIRD Team & Google Cloud
联系方式: bird.bench25@gmail.com

核心特性

动态数据库构建
- 从定期更新的CSV数据集动态构建
- 包含基础版(用户级)和大型版(工业级)数据库
真实用户查询与SQL
- 每个任务包含明确的用户查询和标注的黄金标准SQL语句
- 查询基于外部知识库，SQL语句复杂度中等到困难
上下文推理(HKB)
- 每个数据库包含分层知识库(HKB)
- 提供结构化JSON和非结构化文档两种格式
完整SQL支持
- 支持SELECT(商业智能)和CRUD(数据库管理操作)查询
自动化评估
- 通过PostgreSQL模板和docker快速评估
- SELECT任务使用Soft EX指标评估
- DBA任务使用定制测试用例评估

当前版本详情(LiveSQLBench-Base-Lite)

数据库数量: 18个(用户级)
任务数量: 270个
- 180个SELECT-only任务
- 90个Management任务
知识库格式: HKB-JSON和JSON操作SQL
任务特点: 基于外部知识的明确用户查询，SQL复杂度中等到困难

数据字段说明

instance_id: 唯一任务标识符
selected_database: 关联数据库名称
query: 用户查询
sol_sql: 标准SQL解决方案
external_knowledge: 所需外部知识ID
preprocess_sql: SQL设置查询
clean_up_sql: 重置数据库状态的SQL查询
test_cases: 验证SQL的测试用例
category: "Query"(SELECT)或"Management"(CRUD)
high_level: 是否包含高级描述
conditions: 指示小数/不同条件
difficulty_tier: 任务难度等级(简单/中等/挑战)

评估方法

环境准备
- 需要PostgreSQL数据库和docker环境
- 支持Python 3.10+和OpenAI 1.40+
评估流程
- 生成提示
- LLM推理
- 在docker容器中运行评估脚本

模型性能(2025-05-28)

排名	模型	成功率(%)	平均成本(美元/任务)
1	o3-mini	44.81	0.0233
2	GPT-4.1	40.00	0.0336
3	o4-mini	37.80	0.0231

未来版本计划

LiveSQLBench-Base-Full: 600个BI任务+200个管理任务
LiveSQLBench-Large-Lite: 工业级数据库(1340+列)
LiveSQLBench-Large-Full: 全面的大规模数据集

搜集汇总

数据集介绍

构建方式

在数据库与自然语言处理交叉领域的研究中，LiveSQLBench-Base-Lite数据集通过动态构建技术实现了真实场景的模拟。该数据集基于18个终端用户级数据库，采用专家协作模式从持续更新的CSV数据源生成，每个数据库均配备层次化知识库（HKB）支持多跳推理。数据构建过程严格遵循污染控制原则，通过JSON结构化与文档非结构化双格式存储外部知识，确保270项任务（含180项SELECT查询与90项管理任务）的查询语句均锚定在外部知识体系上，并配备预处理SQL、清理SQL及可验证测试用例。

特点

作为面向文本到SQL转换任务的标杆数据集，其显著特征体现在三维度差异化设计：查询复杂度覆盖中高难度层级，任务类型囊括商业智能查询与CRUD操作全谱系，知识表征融合结构化JSON与非结构化文档双模态。每个任务实例配备唯一标识符、关联数据库名称及分类标签，特别设置小数处理与去重条件标记，并通过难度分级体系（简单/中等/挑战）实现细粒度评估。数据集采用动态演进机制，隐藏测试集周期性转化为开放开发集，保障评估的持续性与公平性。

使用方法

使用该数据集需通过HuggingFace平台获取基础数据文件，完整标注字段需经邮件申请获取。评估环境采用Docker容器化部署PostgreSQL数据库，通过自动化脚本实现提示生成、大模型推理与结果验证全流程。用户需配置Python 3.10+环境及OpenAI API密钥，运行基准测试后，系统将输出至指定目录并生成成功率与成本指标。数据集支持软EX指标评估SELECT任务，针对DBA任务设计定制化测试用例，用户可通过数据库工具函数直接交互验证SQL执行结果。

背景与挑战

背景概述

LiveSQLBench-Base-Lite数据集由香港大学（HKU）与Google Cloud联合研发，于2025年5月正式发布，旨在构建一个动态演进、无污染的文本到SQL转换基准测试平台。该数据集聚焦复杂真实场景下的数据库查询任务，涵盖商业智能（BI）和数据库管理操作（CRUD）等多样化需求，通过18个终端用户级数据库和270项任务，推动大型语言模型在结构化数据交互领域的性能边界。其创新性体现在动态更新的分层知识库（HKB）设计，以及首次实现全SQL谱系支持，为数据库系统与自然语言处理交叉研究提供了标准化评估框架。

当前挑战

该数据集核心挑战体现在两个维度：领域问题层面，需解决真实场景中模糊用户查询到精确SQL语句的转换难题，特别是涉及多跳推理的中高复杂度语句生成；构建过程层面，动态数据库架构要求持续维护数据一致性，而工业级规模（1340+列）的数据集构建需平衡计算资源消耗与标注质量。此外，分层知识库的依赖关系建模和自动化评估体系的可靠性验证，均为技术实现的关键瓶颈。

常用场景

经典使用场景

在数据库管理与自然语言处理交叉领域，LiveSQLBench-Base-Lite数据集为评估大型语言模型在复杂文本到SQL转换任务中的表现提供了标准化测试平台。其精心设计的18个终端用户级数据库和270项任务，涵盖商业智能查询与数据库管理操作，模拟了真实业务场景中从自然语言到结构化查询的完整流程。该数据集通过动态构建的实时数据库和分层知识库，有效还原了企业级数据环境中常见的多表关联、条件筛选及数据操作需求。

解决学术问题

该数据集系统性地解决了文本到SQL转换领域三大核心问题：跨领域语义解析的泛化性评估、复杂数据库模式下的上下文推理能力测量，以及管理类SQL语句生成的准确性验证。通过引入分层知识库和验证测试用例，为学术界提供了量化模型在真实场景中处理模糊用户查询、多跳推理及数据库状态维护能力的可靠基准，显著推进了语义解析与数据库交互技术的标准化研究进程。

衍生相关工作

基于该数据集构建的评估体系已催生多项重要研究，包括香港大学提出的O3-Mini模型架构优化方案，以及Google Cloud研发的多阶段SQL生成验证框架。其隐藏测试集机制启发了后续Benchmark设计中的防过拟合策略，相关数据构造方法被Text-to-SQL领域后续工作广泛引用，成为评估模型跨领域迁移能力的事实标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集