five

LiveSQLBench-Base-Lite

收藏
github2025-06-03 更新2025-06-04 收录
下载链接:
https://github.com/bird-bench/livesqlbench
下载链接
链接失效反馈
官方服务:
资源简介:
LiveSQLBench-Base-Lite是一个无污染、持续演进的基准测试,旨在评估LLMs在复杂、真实世界的文本到SQL任务上的表现。它包含18个终端用户级别的数据库和270个任务(180个仅SELECT任务,90个管理任务)。每个任务都涉及基于外部知识的明确且直接的用户查询,SQL语句复杂度中等至困难。

LiveSQLBench-Base-Lite is a pollution-free, continuously evolving benchmark designed to evaluate the performance of LLMs in complex, real-world text-to-SQL tasks. It includes 18 terminal user-level databases and 270 tasks (180 being SELECT-only tasks and 90 being administrative tasks). Each task involves explicit and direct user queries based on external knowledge, with SQL statement complexity ranging from moderate to difficult.
创建时间:
2025-05-21
原始信息汇总

LiveSQLBench数据集概述

数据集基本信息

  • 名称: LiveSQLBench (BIRD-SQL Pro v0.5)
  • 许可证: CC By SA 4.0
  • 最新版本: LiveSQLBench-Base-Lite (2025-05-30发布)
  • 维护机构: BIRD Team & Google Cloud
  • 联系方式: bird.bench25@gmail.com

核心特性

  1. 动态数据库构建

    • 从定期更新的CSV数据集动态构建
    • 包含基础版(用户级)和大型版(工业级)数据库
  2. 真实用户查询与SQL

    • 每个任务包含明确的用户查询和标注的黄金标准SQL语句
    • 查询基于外部知识库,SQL语句复杂度中等到困难
  3. 上下文推理(HKB)

    • 每个数据库包含分层知识库(HKB)
    • 提供结构化JSON和非结构化文档两种格式
  4. 完整SQL支持

    • 支持SELECT(商业智能)和CRUD(数据库管理操作)查询
  5. 自动化评估

    • 通过PostgreSQL模板和docker快速评估
    • SELECT任务使用Soft EX指标评估
    • DBA任务使用定制测试用例评估

当前版本详情(LiveSQLBench-Base-Lite)

  • 数据库数量: 18个(用户级)
  • 任务数量: 270个
    • 180个SELECT-only任务
    • 90个Management任务
  • 知识库格式: HKB-JSON和JSON操作SQL
  • 任务特点: 基于外部知识的明确用户查询,SQL复杂度中等到困难

数据字段说明

  • instance_id: 唯一任务标识符
  • selected_database: 关联数据库名称
  • query: 用户查询
  • sol_sql: 标准SQL解决方案
  • external_knowledge: 所需外部知识ID
  • preprocess_sql: SQL设置查询
  • clean_up_sql: 重置数据库状态的SQL查询
  • test_cases: 验证SQL的测试用例
  • category: "Query"(SELECT)或"Management"(CRUD)
  • high_level: 是否包含高级描述
  • conditions: 指示小数/不同条件
  • difficulty_tier: 任务难度等级(简单/中等/挑战)

评估方法

  1. 环境准备

    • 需要PostgreSQL数据库和docker环境
    • 支持Python 3.10+和OpenAI 1.40+
  2. 评估流程

    • 生成提示
    • LLM推理
    • 在docker容器中运行评估脚本

模型性能(2025-05-28)

排名 模型 成功率(%) 平均成本(美元/任务)
1 o3-mini 44.81 0.0233
2 GPT-4.1 40.00 0.0336
3 o4-mini 37.80 0.0231

未来版本计划

  • LiveSQLBench-Base-Full: 600个BI任务+200个管理任务
  • LiveSQLBench-Large-Lite: 工业级数据库(1340+列)
  • LiveSQLBench-Large-Full: 全面的大规模数据集
搜集汇总
数据集介绍
main_image_url
构建方式
在数据库与自然语言处理交叉领域的研究中,LiveSQLBench-Base-Lite数据集通过动态构建技术实现了真实场景的模拟。该数据集基于18个终端用户级数据库,采用专家协作模式从持续更新的CSV数据源生成,每个数据库均配备层次化知识库(HKB)支持多跳推理。数据构建过程严格遵循污染控制原则,通过JSON结构化与文档非结构化双格式存储外部知识,确保270项任务(含180项SELECT查询与90项管理任务)的查询语句均锚定在外部知识体系上,并配备预处理SQL、清理SQL及可验证测试用例。
特点
作为面向文本到SQL转换任务的标杆数据集,其显著特征体现在三维度差异化设计:查询复杂度覆盖中高难度层级,任务类型囊括商业智能查询与CRUD操作全谱系,知识表征融合结构化JSON与非结构化文档双模态。每个任务实例配备唯一标识符、关联数据库名称及分类标签,特别设置小数处理与去重条件标记,并通过难度分级体系(简单/中等/挑战)实现细粒度评估。数据集采用动态演进机制,隐藏测试集周期性转化为开放开发集,保障评估的持续性与公平性。
使用方法
使用该数据集需通过HuggingFace平台获取基础数据文件,完整标注字段需经邮件申请获取。评估环境采用Docker容器化部署PostgreSQL数据库,通过自动化脚本实现提示生成、大模型推理与结果验证全流程。用户需配置Python 3.10+环境及OpenAI API密钥,运行基准测试后,系统将输出至指定目录并生成成功率与成本指标。数据集支持软EX指标评估SELECT任务,针对DBA任务设计定制化测试用例,用户可通过数据库工具函数直接交互验证SQL执行结果。
背景与挑战
背景概述
LiveSQLBench-Base-Lite数据集由香港大学(HKU)与Google Cloud联合研发,于2025年5月正式发布,旨在构建一个动态演进、无污染的文本到SQL转换基准测试平台。该数据集聚焦复杂真实场景下的数据库查询任务,涵盖商业智能(BI)和数据库管理操作(CRUD)等多样化需求,通过18个终端用户级数据库和270项任务,推动大型语言模型在结构化数据交互领域的性能边界。其创新性体现在动态更新的分层知识库(HKB)设计,以及首次实现全SQL谱系支持,为数据库系统与自然语言处理交叉研究提供了标准化评估框架。
当前挑战
该数据集核心挑战体现在两个维度:领域问题层面,需解决真实场景中模糊用户查询到精确SQL语句的转换难题,特别是涉及多跳推理的中高复杂度语句生成;构建过程层面,动态数据库架构要求持续维护数据一致性,而工业级规模(1340+列)的数据集构建需平衡计算资源消耗与标注质量。此外,分层知识库的依赖关系建模和自动化评估体系的可靠性验证,均为技术实现的关键瓶颈。
常用场景
经典使用场景
在数据库管理与自然语言处理交叉领域,LiveSQLBench-Base-Lite数据集为评估大型语言模型在复杂文本到SQL转换任务中的表现提供了标准化测试平台。其精心设计的18个终端用户级数据库和270项任务,涵盖商业智能查询与数据库管理操作,模拟了真实业务场景中从自然语言到结构化查询的完整流程。该数据集通过动态构建的实时数据库和分层知识库,有效还原了企业级数据环境中常见的多表关联、条件筛选及数据操作需求。
解决学术问题
该数据集系统性地解决了文本到SQL转换领域三大核心问题:跨领域语义解析的泛化性评估、复杂数据库模式下的上下文推理能力测量,以及管理类SQL语句生成的准确性验证。通过引入分层知识库和验证测试用例,为学术界提供了量化模型在真实场景中处理模糊用户查询、多跳推理及数据库状态维护能力的可靠基准,显著推进了语义解析与数据库交互技术的标准化研究进程。
衍生相关工作
基于该数据集构建的评估体系已催生多项重要研究,包括香港大学提出的O3-Mini模型架构优化方案,以及Google Cloud研发的多阶段SQL生成验证框架。其隐藏测试集机制启发了后续Benchmark设计中的防过拟合策略,相关数据构造方法被Text-to-SQL领域后续工作广泛引用,成为评估模型跨领域迁移能力的事实标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作