livesqlbench-base-lite

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/birdsql/livesqlbench-base-lite

下载链接

链接失效反馈

官方服务：

资源简介：

LiveSQLBench-Base-Lite 是一个动态、无污染的基准测试，用于评估LLM在复杂、真实世界的文本到SQL任务上的性能。包含18个终端用户级别的数据库和270个任务，支持SELECT和CRUD操作查询，并提供层次知识库。

LiveSQLBench-Base-Lite is a dynamic, uncontaminated benchmark for evaluating the performance of Large Language Models (LLMs) on complex, real-world text-to-SQL tasks. It includes 18 end-user-level databases and 270 tasks, supports SELECT and CRUD operation queries, and provides a hierarchical knowledge base.

创建时间：

2025-05-30

原始信息汇总

LiveSQLBench-Base-Lite 数据集概述

📜 基本信息

许可证: cc-by-4.0
维护团队: 🦜 BIRD Team @ HKU & ☁️ Google Cloud
数据集标签: text-to-sql, database
数据文件: livesqlbench_data.jsonl (dev split)

🌟 数据集特点

动态无污染基准: 用于评估LLM在复杂、真实世界的文本到SQL任务上的表现。
多样化查询: 包括商业智能(BI)和CRUD操作等真实用户查询。
层级知识库(HKB): 支持结构化JSON格式，需要多跳推理能力。
全SQL频谱支持: 不仅支持SELECT查询，还支持CRUD操作。
自动化评估: 通过PostgreSQL模板和docker实现快速评估。

📂 数据结构

数据库目录: 每个数据库有独立的目录，包含：
- *_schema.txt: 数据库模式
- *_kb.jsonl: 层级知识库条目
- *_column_meaning_base.json: 数据库列解释

📋 数据字段

instance_id: 唯一任务标识符
selected_database: 关联数据库名称
query: 用户查询
sol_sql: 真实SQL解决方案(受限访问)
external_knowledge: 解决任务所需的外部知识ID(受限访问)
preprocess_sql: SQL设置查询
clean_up_sql: 重置数据库状态的SQL查询
test_cases: 验证SQL的测试用例(受限访问)
category: "Query"(仅SELECT)或"Management"(CRUD)
high_level: 用户查询是否包含高级描述
conditions: 用户查询中的小数/不同条件
difficulty_tier: 任务难度(简单、中等、挑战性)

🔒 完整数据访问

部分字段(如sol_sql、test_cases等)未公开，需通过邮件申请访问权限。

🏆 模型性能(2025-05-28)

排名前五的模型：

o3-mini (44.81%成功率)
GPT-4.1 (40.00%成功率)
o4-mini (37.80%成功率)
o3 (37.40%成功率)
o1-preview (37.03%成功率)

🔄 未来版本计划

LiveSQLBench-Base-Full
LiveSQLBench-Large-Lite
LiveSQLBench-Large-Full

📄 许可证

cc-by-sa-4.0

搜集汇总

数据集介绍

构建方式

LiveSQLBench-Base-Lite数据集通过动态构建方式，从广泛且定期更新的CSV数据集中提取，形成了包含18个终端用户级别数据库的基准测试。每个数据库均配有层次化知识库（HKB），以JSON格式呈现，并涵盖270项任务，其中180项为SELECT查询，90项为数据库管理任务。数据集的设计注重真实性和复杂性，通过与专家合作持续优化，确保任务覆盖商业智能和CRUD操作等多种场景。

使用方法

使用LiveSQLBench-Base-Lite数据集时，用户可通过克隆HuggingFace仓库获取数据文件和相关元文件。数据集目录结构清晰，每个数据库包含模式文件、知识库文件和列含义说明文件。为保障数据安全，部分敏感字段如解决方案SQL和测试用例需通过邮件申请获取。评估过程支持通过PostgreSQL模板和Docker快速执行，用户可参考GitHub仓库获取详细的使用和评估指南。

背景与挑战

背景概述

LiveSQLBench-Base-Lite数据集由香港大学BIRD团队与Google Cloud联合开发，旨在为文本到SQL转换任务提供一个动态且无污染的评估基准。该数据集创建于2025年，专注于解决现实世界中复杂的数据库查询问题，涵盖商业智能（BI）和CRUD操作等多种场景。其核心研究问题在于如何有效评估大型语言模型（LLM）在处理真实用户查询时的表现，特别是在需要多跳推理和外部知识支持的复杂SQL生成任务中。该数据集的推出显著推动了文本到SQL领域的研究，为模型评估提供了更加真实和多样化的测试环境。

当前挑战

LiveSQLBench-Base-Lite数据集面临的主要挑战包括：1) 领域问题的复杂性，如处理多跳推理和外部知识依赖的SQL生成任务；2) 构建过程中的技术难题，包括动态数据库的维护、真实用户查询的收集与标注，以及自动化评估系统的设计。此外，确保数据集的持续更新和隐藏测试集的保密性也是重要的挑战。这些因素共同构成了该数据集在推动文本到SQL研究中的关键难点。

常用场景

经典使用场景

在数据库与自然语言处理交叉领域，LiveSQLBench-Base-Lite数据集为评估大型语言模型在复杂文本到SQL转换任务中的表现提供了标准化测试平台。该数据集通过模拟真实业务场景中的用户查询，包括商业智能分析和数据库管理操作，为研究者构建了涵盖从简单到困难不同难度层级的评估体系。其动态更新的数据库结构和层次化知识库设计，特别适合检验模型在理解模糊用户意图、处理多跳推理等核心能力上的表现。

解决学术问题

该数据集有效解决了文本到SQL领域三个关键学术问题：一是通过真实业务场景的查询-语句对，填补了传统基准测试与现实应用之间的鸿沟；二是引入层次化知识库机制，为研究外部知识注入对SQL生成的影响提供了实验基础；三是首创完整SQL频谱支持，使得CRUD操作与SELECT查询能在统一框架下进行评估。这些创新显著提升了评估结果的实用性和可信度，推动了对话式数据库交互系统的研究进展。

实际应用

在企业级数据库管理系统中，该数据集支撑的评估方法可直接应用于智能查询接口开发。通过验证模型在270个真实任务上的表现，技术团队能够筛选出最适合业务场景的文本到SQL引擎。其包含的数据库模式解释文件和自动化测试框架，已被多家云服务商用于优化其自然语言数据库产品的核心算法，特别是在处理包含业务术语的复杂查询时展现出独特价值。

数据集最近研究