birdsql/bird_mini_dev

Name: birdsql/bird_mini_dev
Creator: birdsql
Published: 2026-01-18 08:44:25
License: 暂无描述

Hugging Face2026-01-18 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/birdsql/bird_mini_dev

下载链接

链接失效反馈

官方服务：

资源简介：

BIRD-SQL Mini-Dev数据集是一个用于测试和改进SQL查询生成模型的小型开发数据集，包含500个高质量的文本到SQL对，来源于11个不同的数据库。数据集支持MySQL和PostgreSQL，并提供了两种新的评估指标：基于奖励的有效性评分（R-VES）和软F1分数。

The BIRD-SQL Mini-Dev dataset is a lite version of a development dataset designed for efficient and cost-effective development cycles, particularly for testing and refining SQL query generation models. It includes 500 high-quality text-to-SQL pairs derived from 11 distinct databases and is available in both MySQL and PostgreSQL formats. The dataset also introduces two new evaluation metrics: the Reward-based Valid Efficiency Score (R-VES) and the Soft F1-Score.

提供机构：

birdsql

搜集汇总

数据集介绍

构建方式

在数据库与自然语言处理交叉领域，BIRD-SQL Mini-Dev 数据集的构建体现了严谨的工程化流程。该数据集源自社区反馈，精心整合了来自11个异构数据库的500对高质量文本到SQL配对。构建过程涉及众包人员依据数据库描述与内容人工撰写问题，并由专家标注辅助模型理解的外部知识证据，最终由众包人员参照数据库信息与证据注释生成准确的SQL查询。为提升工业场景适用性，原始SQLite版本通过sqlglot工具包转换，并辅以人工与GPT-4 Turbo的精细化调整，生成了兼容MySQL与PostgreSQL的版本，确保了跨数据库引擎的实用性与一致性。

特点

该数据集在文本到SQL任务中展现出鲜明的特色。其核心在于覆盖了多样化的真实世界数据库主题，如金融、教育、医疗与娱乐等，且查询难度呈梯度分布，其中简单、中等与挑战性查询分别占比30%、50%与20%。数据集不仅提供了SQLite格式，还专门提供了MySQL与PostgreSQL版本，显著增强了其在企业级数据库环境中的评估价值。此外，数据集引入了奖励制有效效率分数与软F1分数两项创新性评估指标，专注于衡量模型生成SQL的执行效率与精确度，为模型性能提供了多维度、细粒度的评测框架。

使用方法

使用该数据集进行模型开发与评估，需遵循系统化的操作流程。研究人员可通过Hugging Face的datasets库直接加载数据集，并分别访问其SQLite、MySQL与PostgreSQL版本。对于后两者，需预先在本地安装对应的数据库管理系统，并执行提供的SQL脚本以构建完整的数据库实例。数据集中每个样本均以JSON格式封装，包含数据库标识、自然语言问题、外部知识证据及标准SQL答案。配套的示例代码演示了如何在Python环境中连接数据库并执行查询。评估时，可基于数据集提供的真实SQL文件与新型指标，对模型生成的查询进行效率与准确性的综合量化分析。

背景与挑战

背景概述

BIRD-SQL Mini-Dev数据集由birdsql团队于2024年推出，旨在为文本到SQL转换任务提供一个高效且成本可控的开发基准。该数据集聚焦于解决自然语言查询与结构化数据库交互的核心研究问题，通过整合来自11个不同领域的500个高质量文本-SQL对，涵盖了从简单到复杂的多难度层级。其设计不仅促进了大型语言模型在数据库接口应用中的评估与优化，还引入了奖励式有效效率分数与软F1分数等创新评估指标，显著推动了数据库自然语言处理领域的研究进展与工业实践。

当前挑战

该数据集致力于应对文本到SQL转换中语义理解与查询生成的复杂性挑战，尤其在处理涉及多表连接、聚合函数及外部知识推理的复杂查询时，模型需准确解析自然语言意图并生成符合数据库语法的SQL语句。在构建过程中，挑战体现在高质量数据对的标注上，需要协调众包与专家协作，确保问题与SQL的精确对应，同时维护跨数据库系统（如SQLite、MySQL、PostgreSQL）的一致性，以及设计能够全面评估模型效率与准确性的新型评估体系。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，BIRD-SQL Mini-Dev数据集为文本到SQL转换模型的开发与评估提供了高效平台。该数据集精心构建了500个高质量文本-SQL对，覆盖金融、教育、体育等11个真实数据库，并支持SQLite、MySQL和PostgreSQL三种数据库引擎。研究者利用其多样化的查询难度分布和丰富的SQL关键词覆盖，能够系统性地测试模型在复杂查询生成、跨数据库适配以及外部知识融合等方面的能力，从而推动文本到SQL技术的迭代优化。

解决学术问题

该数据集致力于解决文本到SQL领域长期存在的若干关键学术挑战。它通过引入外部知识证据标注，缓解了模型在理解专业领域术语和隐含语义时的信息缺失问题。同时，数据集涵盖多种数据库系统与复杂查询结构，为研究跨数据库SQL生成、查询效率优化以及语义解析的鲁棒性提供了标准化的实验环境。其提出的R-VES和Soft F1-Score等评估指标，进一步推动了对于模型输出在功能正确性与执行效率方面的多维量化评价体系的发展。

衍生相关工作

围绕该数据集，学术界衍生出一系列重要的研究工作。以原论文《Can LLM Already Serve as a Database Interface?》为代表，众多研究基于此基准评估了GPT-4、Llama等大语言模型在文本到SQL任务上的性能。后续工作进一步探索了提示工程优化、思维链增强以及专门针对数据库模式理解的微调策略。这些研究不仅深化了对模型能力边界的认识，也催生了如TA（任务分解辅助）等改进方法，持续推动着自然语言数据库交互技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集