bird_sql_dev_20251106

Hugging Face2025-11-12 更新2025-11-13 收录

下载链接：

https://huggingface.co/datasets/birdsql/bird_sql_dev_20251106

下载链接

链接失效反馈

官方服务：

资源简介：

BIRD-SQL Dev数据集是一个用于表格问答和问题回答任务的SQL数据集。该数据集经过了一个质量审查程序，由数据科学和AI领域的5位博士研究人员领导，并由具有10年以上经验的行业工程师和AI/数据科学领域的研究生团队支持。审查的目的是最小化模糊性并纠正错误，确保数据集的清晰性、一致性和可靠性。数据集中的问题由接受过BI训练的母语使用者编写。尽管努力减少了模糊性，但自然语言和NLP研究的固有特征仍然存在，这反映了在数据库上下文中解释人类问题的现实挑战。未来的排行榜将引入一个交互式的澄清设置，以帮助模型通过动态交互和澄清对话处理模糊性。

The BIRD-SQL Dev dataset is a SQL dataset intended for table-based question answering and general question answering tasks. This dataset underwent a quality review process led by five doctoral researchers in the fields of data science and artificial intelligence, and supported by a team of industry engineers with over 10 years of experience and graduate students specializing in AI and data science. The purpose of this review was to minimize ambiguity and correct errors, ensuring the clarity, consistency and reliability of the dataset. All questions in the dataset were written by native speakers trained in Business Intelligence (BI). Despite efforts to reduce ambiguity, the inherent characteristics of natural language and NLP research still exist, which reflects the real-world challenges of interpreting human queries within database contexts. Future leaderboards will introduce an interactive clarification framework to help models handle ambiguity through dynamic interactions and clarification dialogues.

创建时间：

2025-11-07

原始信息汇总

BIRD-SQL Dev 数据集概述

基本信息

许可证: CC-BY-SA-4.0
任务类别: 表格问答、问答
语言: 英语
数据规模: 1K<n<10K

数据集描述

BIRD-SQL Dev 是一个用于文本到SQL转换任务的开发数据集，专注于数据库相关的自然语言问答。

数据集结构

每个数据条目包含以下字段：

字段名	数据类型	描述
`question_id`	整数	每个实例的唯一标识符
`db_id`	字符串	对应SQLite文件的数据库名称
`question`	字符串	用户提出的自然语言问题
`evidence`	字符串或空值	解释问题所需的支持信息或定义
`SQL`	字符串	经验证可成功执行的真实SQL查询
`difficulty`	字符串	难度级别：simple、moderate或challenging

数据获取

新用户

下载完整数据库包： https://drive.google.com/file/d/13VLWIwpw5E3d5DUkMvzw7hvHE67a4XkG/view?usp=sharing

加载数据集

python from datasets import load_dataset dataset = load_dataset("birdsql/bird_sql_dev_20251106") print(dataset["dev_20251106"][0])

基线性能

模型	Dev 1106
claude-sonnet-4.5	66.56
gemini-2.5-flash	65.91
qwen3-coder-480b-a35b	65.45
claude-sonnet-4	64.86
gemini-2.0-flash-001	63.62
gpt-5-2025-08-07	63.3
Qwen3-30B-A3B-Instruct-2507	63.17
Qwen3-235B-A22B-Thinking-2507	61.6
Qwen2.5-Coder-32B-Instruct	60.95
claude-4-5-haiku	60.69
Llama-3.1-70B-Instruct	59.39
Qwen2.5-Coder-14B-Instruct	57.04
Qwen2.5-Coder-7B-Instruct	49.22
Llama-3.1-8B-Instruct	36.7

引用

bibtex @article{li2024can, title={Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sqls}, author={Li, Jinyang and Hui, Binyuan and Qu, Ge and Yang, Jiaxi and Li, Binhua and Li, Bowen and Wang, Bailin and Qin, Bowen and Geng, Ruiying and Huo, Nan and others}, journal={Advances in Neural Information Processing Systems}, volume={36}, year={2024} }

搜集汇总

数据集介绍

构建方式

在数据库自然语言查询领域，BIRD-SQL Dev数据集的构建体现了严谨的学术规范。该数据集通过五位数据科学与人工智能领域的博士研究员主导的质量审查程序，辅以具备十年以上行业经验的工程师及硕博研究生的协同参与，对全部实例进行了系统性优化。在保持原始语义的基础上，研究团队针对自然语言问题进行了歧义消除和表达优化，同时对证据描述进行了精准化提炼，并修正了SQL查询的语法有效性与逻辑一致性，确保所有查询能在发布数据库上成功执行。

使用方法

对于研究者而言，该数据集可通过Hugging Face平台便捷获取。用户需先行下载完整的数据库资源包，继而使用标准数据加载接口导入开发集。典型应用流程包含实例解析与字段提取，其中证据字段可为模型提供辅助性的语境理解支持，而经过验证的SQL查询则作为模型输出的黄金标准。该数据集特别适用于评估文本到SQL转换系统的性能，其分层难度设计支持对不同复杂度查询处理能力的差异化分析。

背景与挑战

背景概述

文本到SQL转换作为自然语言处理与数据库交互的前沿领域，其发展始终受到真实场景复杂性的制约。BIRD-SQL数据集由数据科学与人工智能领域的研究团队于2024年创建，核心目标在于构建大规模数据库驱动的文本到SQL评估基准。该数据集通过融合商业智能场景中的实际数据库与自然语言问询，显著推进了模型对复杂语义理解与结构化查询的生成能力，已成为评估文本到SQL系统性能的重要标准。

当前挑战

文本到SQL领域面临自然语言歧义性解析的固有难题，例如用户问询中隐含的上下文依赖与多义性表达。在数据集构建过程中，团队需克服标注一致性与逻辑验证的双重挑战：既要确保问题表述符合真实场景的复杂性，又要保证生成的SQL查询具备语法正确性与执行可行性。此外，跨领域数据库的异构结构要求标注者兼具领域知识与SQL专业技能，这进一步增加了数据质量控制的难度。

常用场景

经典使用场景

在数据库自然语言交互研究领域，BIRD-SQL Dev数据集作为文本到SQL转换任务的重要基准，其经典应用场景聚焦于评估模型将复杂自然语言问题转化为可执行SQL查询的能力。该数据集通过涵盖教育统计、商业运营等多元领域的真实数据库，要求模型理解涉及多层嵌套查询与窗口函数的高级SQL语法，为跨领域语义解析研究提供了标准化测试环境。

解决学术问题

该数据集有效解决了文本到SQL转换中语义歧义消解与复杂查询生成的学术难题。通过提供经过专家验证的SQL标注与证据描述，显著提升了模型对业务逻辑的理解精度，尤其针对涉及聚合运算与多表关联的挑战性问题。其严谨的质量控制机制为自然语言接口与数据库系统的深度融合奠定了理论基础，推动了语义解析技术在真实场景中的鲁棒性研究。

实际应用

在实际部署层面，该数据集支撑的智能问答系统已广泛应用于企业级数据管理平台。通过将非技术人员的自然语言提问自动转换为结构化查询，大幅降低了商业智能分析的门槛。在教育评估领域，基于该数据集训练的模型能够快速生成学区统计报告，为教育政策制定者提供实时数据支持，体现了自然语言处理技术在实际业务场景中的转化价值。

数据集最近研究