five

LiveSQLBench-Base-Lite|文本到SQL数据集|基准测试数据集

收藏
github2025-06-03 更新2025-06-04 收录
文本到SQL
基准测试
下载链接:
https://github.com/bird-bench/livesqlbench
下载链接
链接失效反馈
资源简介:
LiveSQLBench-Base-Lite是一个无污染、持续演进的基准测试,旨在评估LLMs在复杂、真实世界的文本到SQL任务上的表现。它包含18个终端用户级别的数据库和270个任务(180个仅SELECT任务,90个管理任务)。每个任务都涉及基于外部知识的明确且直接的用户查询,SQL语句复杂度中等至困难。

LiveSQLBench-Base-Lite is a pollution-free, continuously evolving benchmark designed to evaluate the performance of LLMs in complex, real-world text-to-SQL tasks. It includes 18 terminal user-level databases and 270 tasks (180 being SELECT-only tasks and 90 being administrative tasks). Each task involves explicit and direct user queries based on external knowledge, with SQL statement complexity ranging from moderate to difficult.
创建时间:
2025-05-21
原始信息汇总

LiveSQLBench数据集概述

数据集基本信息

  • 名称: LiveSQLBench (BIRD-SQL Pro v0.5)
  • 许可证: CC By SA 4.0
  • 最新版本: LiveSQLBench-Base-Lite (2025-05-30发布)
  • 维护机构: BIRD Team & Google Cloud
  • 联系方式: bird.bench25@gmail.com

核心特性

  1. 动态数据库构建

    • 从定期更新的CSV数据集动态构建
    • 包含基础版(用户级)和大型版(工业级)数据库
  2. 真实用户查询与SQL

    • 每个任务包含明确的用户查询和标注的黄金标准SQL语句
    • 查询基于外部知识库,SQL语句复杂度中等到困难
  3. 上下文推理(HKB)

    • 每个数据库包含分层知识库(HKB)
    • 提供结构化JSON和非结构化文档两种格式
  4. 完整SQL支持

    • 支持SELECT(商业智能)和CRUD(数据库管理操作)查询
  5. 自动化评估

    • 通过PostgreSQL模板和docker快速评估
    • SELECT任务使用Soft EX指标评估
    • DBA任务使用定制测试用例评估

当前版本详情(LiveSQLBench-Base-Lite)

  • 数据库数量: 18个(用户级)
  • 任务数量: 270个
    • 180个SELECT-only任务
    • 90个Management任务
  • 知识库格式: HKB-JSON和JSON操作SQL
  • 任务特点: 基于外部知识的明确用户查询,SQL复杂度中等到困难

数据字段说明

  • instance_id: 唯一任务标识符
  • selected_database: 关联数据库名称
  • query: 用户查询
  • sol_sql: 标准SQL解决方案
  • external_knowledge: 所需外部知识ID
  • preprocess_sql: SQL设置查询
  • clean_up_sql: 重置数据库状态的SQL查询
  • test_cases: 验证SQL的测试用例
  • category: "Query"(SELECT)或"Management"(CRUD)
  • high_level: 是否包含高级描述
  • conditions: 指示小数/不同条件
  • difficulty_tier: 任务难度等级(简单/中等/挑战)

评估方法

  1. 环境准备

    • 需要PostgreSQL数据库和docker环境
    • 支持Python 3.10+和OpenAI 1.40+
  2. 评估流程

    • 生成提示
    • LLM推理
    • 在docker容器中运行评估脚本

模型性能(2025-05-28)

排名 模型 成功率(%) 平均成本(美元/任务)
1 o3-mini 44.81 0.0233
2 GPT-4.1 40.00 0.0336
3 o4-mini 37.80 0.0231

未来版本计划

  • LiveSQLBench-Base-Full: 600个BI任务+200个管理任务
  • LiveSQLBench-Large-Lite: 工业级数据库(1340+列)
  • LiveSQLBench-Large-Full: 全面的大规模数据集
AI搜集汇总
数据集介绍
main_image_url
构建方式
在数据库与自然语言处理交叉领域的研究中,LiveSQLBench-Base-Lite数据集通过动态构建技术实现了真实场景的模拟。该数据集基于18个终端用户级数据库,采用专家协作模式从持续更新的CSV数据源生成,每个数据库均配备层次化知识库(HKB)支持多跳推理。数据构建过程严格遵循污染控制原则,通过JSON结构化与文档非结构化双格式存储外部知识,确保270项任务(含180项SELECT查询与90项管理任务)的查询语句均锚定在外部知识体系上,并配备预处理SQL、清理SQL及可验证测试用例。
特点
作为面向文本到SQL转换任务的标杆数据集,其显著特征体现在三维度差异化设计:查询复杂度覆盖中高难度层级,任务类型囊括商业智能查询与CRUD操作全谱系,知识表征融合结构化JSON与非结构化文档双模态。每个任务实例配备唯一标识符、关联数据库名称及分类标签,特别设置小数处理与去重条件标记,并通过难度分级体系(简单/中等/挑战)实现细粒度评估。数据集采用动态演进机制,隐藏测试集周期性转化为开放开发集,保障评估的持续性与公平性。
使用方法
使用该数据集需通过HuggingFace平台获取基础数据文件,完整标注字段需经邮件申请获取。评估环境采用Docker容器化部署PostgreSQL数据库,通过自动化脚本实现提示生成、大模型推理与结果验证全流程。用户需配置Python 3.10+环境及OpenAI API密钥,运行基准测试后,系统将输出至指定目录并生成成功率与成本指标。数据集支持软EX指标评估SELECT任务,针对DBA任务设计定制化测试用例,用户可通过数据库工具函数直接交互验证SQL执行结果。
背景与挑战
背景概述
LiveSQLBench-Base-Lite数据集由香港大学(HKU)与Google Cloud联合研发,于2025年5月正式发布,旨在构建一个动态演进、无污染的文本到SQL转换基准测试平台。该数据集聚焦复杂真实场景下的数据库查询任务,涵盖商业智能(BI)和数据库管理操作(CRUD)等多样化需求,通过18个终端用户级数据库和270项任务,推动大型语言模型在结构化数据交互领域的性能边界。其创新性体现在动态更新的分层知识库(HKB)设计,以及首次实现全SQL谱系支持,为数据库系统与自然语言处理交叉研究提供了标准化评估框架。
当前挑战
该数据集核心挑战体现在两个维度:领域问题层面,需解决真实场景中模糊用户查询到精确SQL语句的转换难题,特别是涉及多跳推理的中高复杂度语句生成;构建过程层面,动态数据库架构要求持续维护数据一致性,而工业级规模(1340+列)的数据集构建需平衡计算资源消耗与标注质量。此外,分层知识库的依赖关系建模和自动化评估体系的可靠性验证,均为技术实现的关键瓶颈。
常用场景
经典使用场景
在数据库管理与自然语言处理交叉领域,LiveSQLBench-Base-Lite数据集为评估大型语言模型在复杂文本到SQL转换任务中的表现提供了标准化测试平台。其精心设计的18个终端用户级数据库和270项任务,涵盖商业智能查询与数据库管理操作,模拟了真实业务场景中从自然语言到结构化查询的完整流程。该数据集通过动态构建的实时数据库和分层知识库,有效还原了企业级数据环境中常见的多表关联、条件筛选及数据操作需求。
解决学术问题
该数据集系统性地解决了文本到SQL转换领域三大核心问题:跨领域语义解析的泛化性评估、复杂数据库模式下的上下文推理能力测量,以及管理类SQL语句生成的准确性验证。通过引入分层知识库和验证测试用例,为学术界提供了量化模型在真实场景中处理模糊用户查询、多跳推理及数据库状态维护能力的可靠基准,显著推进了语义解析与数据库交互技术的标准化研究进程。
衍生相关工作
基于该数据集构建的评估体系已催生多项重要研究,包括香港大学提出的O3-Mini模型架构优化方案,以及Google Cloud研发的多阶段SQL生成验证框架。其隐藏测试集机制启发了后续Benchmark设计中的防过拟合策略,相关数据构造方法被Text-to-SQL领域后续工作广泛引用,成为评估模型跨领域迁移能力的事实标准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录