livesqlbench-base-lite-sqlite

Hugging Face2025-07-24 更新2025-07-25 收录

下载链接：

https://huggingface.co/datasets/birdsql/livesqlbench-base-lite-sqlite

下载链接

链接失效反馈

官方服务：

资源简介：

LiveSQLBench-Base-Lite是一个动态的、无污染的基准测试，用于评估大型语言模型在处理复杂的现实世界文本到SQL任务时的表现。它包括实时数据库、与注释标准SQL语句配对的用户查询、层次知识库、支持全面SQL功能、自动化评估和持续更新。当前发布的SQLite版本包含18个终端用户级别的数据库和270个任务，以及JSON格式的知识库和SQL操作。

LiveSQLBench-Base-Lite is a dynamic, pollution-free benchmark for evaluating the performance of large language models (LLMs) on complex real-world text-to-SQL tasks. It includes real-time databases, user queries paired with annotated standard SQL statements, hierarchical knowledge bases, support for comprehensive SQL functionalities, automated evaluation mechanisms, and continuous updates. The currently released SQLite version contains 18 end-user-level databases and 270 tasks, along with knowledge bases in JSON format and SQL operations.

创建时间：

2025-07-18

原始信息汇总

LiveSQLBench-Base-Lite-SQLite 数据集概述

📜 基本信息

许可证: cc-by-4.0
维护团队: BIRD Team @ HKU & Google Cloud
数据集地址: https://huggingface.co/datasets/birdsql/livesqlbench-base-lite-sqlite
相关链接:
- 官网: https://livesqlbench.ai
- GitHub: https://github.com/bird-bench/livesqlbench
- 论文: https://arxiv.org (即将发布)

🎯 数据集目标

评估LLM在复杂、真实世界的文本到SQL任务上的表现。
提供动态、无污染的基准测试。

📊 数据集特点

动态数据库:
- 从定期更新的CSV数据集动态构建。
- 包含基础版（用户端级别）和大型版（工业级别）数据库。
真实用户查询和SQL:
- 每个任务包含明确的用户查询和标注的黄金标准SQL语句。
- 用户查询基于外部知识库，SQL语句复杂度中等至困难。
上下文推理（HKB）:
- 每个数据库包含分层知识库（HKB），支持多跳推理。
- 提供两种HKB格式：结构化JSON和非结构化文档。
完整的SQL支持:
- 支持SELECT（商业智能）和CRUD（数据库管理操作）查询。
自动化评估:
- 通过PostgreSQL模板和docker快速评估。
- 每个问题包含可验证的测试用例。
动态更新:
- 定期添加新数据库和任务。
- 每个版本包含开放开发和隐藏测试阶段。

🎯 当前版本: LiveSQLBench-Base-Lite-SQLite

数据库数量: 18个（用户端级别）
任务数量: 270个（180个SELECT-only，90个管理任务）
HKB格式: HKB-JSON
SQL方言: SQLite

💻 使用方法

下载数据集: bash git clone https://huggingface.co/datasets/birdsql/livesqlbench-base-lite-sqlite
获取完整数据:
- 发送邮件至bird.bench25@gmail.com，主题为[livesqlbench-base-lite GT&Test Cases]。

📊 性能数据

模型	PostgreSQL	SQLite
o3-mini	47.78	42.59
Claude 3.7 Sonnet	39.26	41.11
GPT-4o	34.44	34.44
Gemini 2.0 Flash	34.44	33.7
DeepSeek R1-0528	38.14	32.96
QwQ-32B	31.48	31.48
Qwen2.5 Coder 32B	22.96	22.22
Codestral 22B	21.11	19.63
Qwen2.5 Coder 7B	12.22	12.22
Mixtral 8x7B Instruct	2.59	8.89
Mistral 7B Instruct	3.7	4.44

📁 目录结构

. ├── README.md ├── alien │ ├── alien_column_meaning_base.json │ ├── alien_kb.jsonl │ ├── alien_schema.txt │ ├── alien_tempalte.sqlite ... ├── livesqlbench_data_sqlite.jsonl

📂 文件内容

*_schema.txt: 数据库模式。
*_kb.jsonl: 分层知识库条目。
*_column_meaning_base.json: 数据库列的解释。

📋 数据集字段 (`livesqlbench_data_sqlite.jsonl`)

instance_id: 唯一任务标识符。
selected_database: 关联的数据库名称。
query: 用户查询。
sol_sql: 黄金标准SQL解决方案（需申请访问）。
external_knowledge: 解决任务所需的外部知识ID（需申请访问）。
preprocess_sql: SQL设置查询。
clean_up_sql: 重置数据库状态的SQL查询。
test_cases: 验证SQL的测试用例（需申请访问）。
category: "Query"（SELECT-only）或"Management"（CRUD））。
high_level: 用户查询是否包含高级描述。
conditions: 用户查询中的十进制/不同条件。
difficulty_tier: 任务难度（简单、中等、挑战性）。

🔄 未来版本

LiveSQLBench-Base-Full: 600个BI任务，200个管理任务，基于文档的HKB。
LiveSQLBench-Large-Lite: 工业级数据库（1340+列）。
LiveSQLBench-Large-Full: 全面的大规模数据集。

📄 许可证

cc-by-sa-4.0

搜集汇总

数据集介绍

构建方式

在数据库与自然语言处理交叉领域，LiveSQLBench-Base-Lite-SQLite数据集的构建体现了严谨的工程方法论。研究团队通过专家协作方式，从真实业务场景中精选18个终端用户级数据库，采用动态更新的CSV数据源构建可扩展的SQLite实例。每个任务均包含经过语义消歧的用户查询与黄金标准SQL语句的精准配对，其中20%的查询根据SQLite引擎特性进行了适配性改写，例如使用视图替代自定义函数。数据库配套的层次化知识库（HKB）采用JSON结构化存储，通过知识ID的树形依赖关系实现多跳推理支持。

使用方法

使用者可通过HuggingFace平台获取基础数据文件livesqlbench_data_sqlite.jsonl，其中包含任务实例ID、用户查询及数据库元信息。为保障评估公正性，标准SQL解决方案与测试用例需通过邮件申请获取。配套的BIRD-MiniDev工具库提供完整的评估框架，支持基于Docker的自动化测试环境部署。每个数据库目录包含Schema描述文件、列语义说明及知识库文档，研究者可结合SQLite本地引擎执行验证。对于需要工业级测试的场景，建议关注即将发布的Large版本数据集。

背景与挑战

背景概述

LiveSQLBench-Base-Lite-SQLite数据集由香港大学BIRD团队与Google Cloud联合开发，旨在为复杂文本到SQL转换任务提供动态且无污染的评估基准。该数据集构建于2023年，通过整合真实商业场景中的用户查询与数据库操作，覆盖了从终端用户到工业级的不同规模数据库。其创新性体现在采用分层知识库（HKB）设计，支持多跳推理能力，并首次实现了全SQL谱系支持，包括商业智能查询和CRUD操作。作为BIRD-SQL Pro v0.5的衍生版本，该数据集通过持续更新的数据库和隐藏测试机制，推动了自然语言处理与数据库交互领域的研究进展。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：领域问题方面，需解决真实场景中模糊用户查询与精确SQL语句的映射难题，特别是涉及分层知识库的多跳推理任务；构建过程方面，需平衡工业级数据库的复杂度与评估可行性，同时确保跨SQL方言（如PostgreSQL到SQLite）的准确转换。动态更新机制带来的版本兼容性问题，以及防止自动爬虫导致的数据泄露风险，均为构建过程中需要持续应对的技术挑战。

常用场景

经典使用场景

在数据库管理与自然语言处理交叉领域，LiveSQLBench-Base-Lite-SQLite数据集为评估大型语言模型在真实场景下的文本到SQL转换能力提供了标准化测试平台。该数据集通过包含商业智能查询和CRUD操作等多样化任务，模拟了企业级数据库系统的实际应用环境，尤其适合检验模型对复杂嵌套查询和跨表关联操作的处理能力。其动态更新的数据库结构和分层知识库设计，有效反映了现代数据生态系统的演进特性。

解决学术问题

该数据集系统性地解决了文本到SQL研究中的三个核心难题：真实场景下的语义歧义消除、跨领域数据库模式适配以及复杂知识推理的量化评估。通过提供包含1340余列的工业级数据库结构和分层知识依赖关系，填补了现有基准测试在数据库规模与查询复杂度方面的空白，为学术界建立更可靠的模型评估体系提供了数据基础。其污染防护机制和持续更新策略，有效遏制了模型过拟合基准测试的现象。

实际应用

在商业智能分析领域，该数据集支撑的模型评估直接服务于企业级决策支持系统的开发。金融机构可利用其测试模型对多维度财务数据的查询生成能力，电商平台则能验证商品推荐系统背后的复杂SQL逻辑准确性。数据库管理工具开发商通过该基准优化自然语言接口，使非技术人员也能高效执行数据操作，显著降低企业数据分析门槛。

数据集最近研究