BIRD-Verified

Name: BIRD-Verified
Creator: 伊利诺伊大学厄巴纳-香槟分校
Published: 2026-03-20 22:49:27
License: 暂无描述

arXiv2026-03-20 更新2026-03-24 收录

下载链接：

https://github.com/uiuc-kang-lab/ReViSQL

下载链接

链接失效反馈

官方服务：

资源简介：

BIRD-Verified是由伊利诺伊大学团队构建的高质量Text-to-SQL数据集，包含2,462条经过多轮专家验证的样本。该数据集基于BIRD基准训练集，通过设计数据校正流程修复了61.1%样本的SQL查询错误、26.2%的自然语言问题错误和18.2%的外部知识错误。数据创建过程采用2-4轮独立人工校验机制，显著提升了RLVR训练效果，使模型推理准确率提升8.2-13.9%。该数据集主要应用于提升大语言模型的SQL推理能力，解决文本到SQL转换任务中数据噪声导致的性能瓶颈问题。

BIRD-Verified is a high-quality Text-to-SQL dataset developed by the University of Illinois research team, encompassing 2,462 multi-round expert-verified samples. Built upon the BIRD benchmark training set, it leverages a tailored data correction pipeline to fix SQL query errors in 61.1% of samples, natural language question errors in 26.2% of samples, and external knowledge errors in 18.2% of samples. The dataset creation process employs a 2- to 4-round independent manual validation mechanism, which notably enhances RLVR training performance and increases the model's inference accuracy by 8.2% to 13.9%. This dataset is primarily designed to improve the SQL inference capabilities of large language models (LLMs), addressing the performance bottlenecks induced by data noise in text-to-SQL conversion tasks.

提供机构：

伊利诺伊大学厄巴纳-香槟分校

创建时间：

2026-03-20

原始信息汇总

ReViSQL数据集概述

数据集基本信息

数据集名称: ReViSQL / BIRD-Verified
核心贡献: 提供了一个经过专家验证的Text-to-SQL训练数据集，首次在BIRD基准上达到人类水平准确率。
数据规模: 包含2,462个经过专家验证的Text-to-SQL实例。
数据修正: 修正了原始BIRD训练集中52.1%的SQL查询、26.2%的问题描述和18.2%的外部知识上下文中的标注错误。

数据集文件构成

数据集文件位于data/目录下，主要包含：

核心数据文件

bird-verified-train.json: BIRD-Verified训练集（85%分割，约2,088个实例）
bird-verified-val.json: BIRD-Verified验证集（15%分割，约374个实例）
bird-verified-train.parquet: 训练集的Parquet格式文件（由curate_final_data.py生成）
val_test.parquet: 验证集和评估集合并的Parquet格式文件（由curate_final_data.py生成）

数据缩放消融实验子集

bird-verified-train-125.json: 125个实例的子集
bird-verified-train-250.json: 250个实例的子集
bird-verified-train-500.json: 500个实例的子集
bird-verified-train-1000.json: 1000个实例的子集

评估数据集

arcwise_plat_full.json: Arcwise-Plat-Full评估集（500个问题，完全修正）
arcwise_plat_sql.json: Arcwise-Plat-SQL评估集（500个问题，仅SQL修正）
bird_eval.parquet: 原始BIRD mini-Dev评估集
spider2sqlite_eval.parquet: Spider 2-SQLite评估集（135个问题）
spider_2_snow_eval.parquet: Spider 2-Snow评估集（547个问题）

原始数据与模式文件

bird-plat-2.5k-v1.json: 原始的BIRD-Platinum 2.5k训练候选集（验证前）
ddls/: 数据库模式DDL文件（每个数据库ID对应一个文件）

数据集生成与准备

主生成脚本: data_scripts/curate_final_data.py
生成命令: uv run data_scripts/curate_final_data.py
输出文件: 生成data/bird-verified-train.parquet和data/val_test.parquet

数据集用途

主要用途: 用于训练ReViSQL框架，通过RLVR（带可验证奖励的强化学习）进行微调。
评估基准: 用于在BIRD、Spider 2-SQLite和Spider 2-Snow基准上进行模型性能评估。
消融研究: 提供不同规模的子集用于数据缩放消融实验（对应论文图8）。

相关资源依赖

数据库文件: 需要下载BIRD mini-Dev数据库和Spider 2-SQLite数据库。
环境变量: 需要配置API密钥（Together AI用于推理，W&B用于日志记录）。

搜集汇总

数据集介绍

构建方式

在自然语言转SQL研究领域，数据质量是模型性能提升的关键瓶颈。BIRD-Verified数据集的构建旨在解决原始训练集中普遍存在的标注错误问题。该数据集从BIRD Train集中精选了2,500个实例，通过设计严谨的多轮专家校正与验证流程完成构建。具体流程包含初始化标注、问题与外部知识校正、SQL查询修正、验证及冲突解决五个核心环节。在构建过程中，SQL专家团队针对内部不一致性、语义模糊性、黄金SQL错误及领域知识违规四类错误进行系统性修正，并引入AI审阅器提供错误提示。经过2至4轮独立人工校正与交叉验证，最终形成了包含2,462个高质量实例的验证数据集，其中61.1%的原始实例得到了校正。

特点

BIRD-Verified数据集的核心特点体现在其卓越的数据质量与结构复杂性上。相较于原始BIRD Train集，该数据集在SQL查询的结构复杂度上呈现系统性提升，平均每查询涉及的表数量增加12.0%，聚合操作增加21.9%，子查询数量增长66.8%，公共表表达式（CTE）从零增至0.11。这种复杂性提升反映了对领域约束更严格的遵循。数据质量方面，校正覆盖了52.1%的SQL查询、26.2%的自然语言问题及18.2%的外部知识上下文，显著降低了标注噪声。此外，数据集还引入了基于子集和列表的精细化评分方法，以应对复杂场景下的正确性评估需求，为强化学习提供可靠的奖励信号。

使用方法

BIRD-Verified数据集主要应用于提升文本到SQL转换模型的推理能力，特别是在强化学习与可验证奖励（RLVR）框架中。使用时，可将该数据集作为训练数据，通过RLVR算法激励模型自主探索有效的推理路径。具体操作中，模型在训练阶段通过多轮展开生成SQL查询，利用数据集提供的验证后黄金SQL作为奖励基准，优化其内部推理机制。在推理阶段，可结合生成-协调机制与多数投票策略，对模型输出的多个候选查询进行筛选，以应对自然语言歧义与分布偏移。该数据集的使用显著提升了单次生成准确率8.2–13.9%，为ReViSQL等框架实现人类水平性能提供了关键的数据基础。

背景与挑战

背景概述

BIRD-Verified数据集诞生于自然语言转SQL（Text-to-SQL）研究领域的关键发展期，旨在解决现有基准中普遍存在的标注噪声问题。该数据集由伊利诺伊大学厄巴纳-香槟分校（UIUC）的Yuxuan Zhu、Tengjun Jin、Yoojin Choi和Daniel Kang等研究人员于2026年前后构建，核心研究问题是提升大型语言模型在Text-to-SQL任务中的推理能力与可靠性。研究团队发现，即使是最先进的AI代理系统，在广泛使用的BIRD基准测试中也未能达到人类专家的准确率，其根本瓶颈在于训练数据的质量而非模型架构的复杂性。BIRD-Verified通过对原始BIRD训练集进行专家级人工校正与验证，构建了包含2.5千个高质量实例的洁净数据集，为基于可验证奖励的强化学习提供了可靠基础，显著推动了Text-to-SQL领域向人类水平性能的迈进。

当前挑战

BIRD-Verified数据集主要应对两大挑战。在领域问题层面，其核心挑战是缩小Text-to-SQL系统中自动化模型与人类专家之间的性能鸿沟，具体表现为解决自然语言歧义性、复杂数据库模式导航以及生成符合领域逻辑与数据完整性的正确SQL查询。在构建过程层面，挑战尤为艰巨：原始BIRD训练集中存在普遍且隐蔽的标注错误，包括SQL查询逻辑错误（占比52.1%）、自然语言问题表述不清（26.2%）以及外部知识冲突（18.2%）。为纠正这些错误，研究团队设计了多轮专家验证流程，需克服自动化LLM审查器召回率低（仅24.5%）的局限，并解决校正与验证环节中可能出现的专家意见冲突，最终通过多达四轮的独立人工校正与冲突裁决机制，确保了数据集的严谨性与高精度。

常用场景

经典使用场景

在自然语言处理与数据库交互的前沿领域，BIRD-Verified数据集为文本到SQL转换任务提供了高质量的基准验证平台。该数据集最经典的使用场景是作为强化学习与可验证奖励机制的训练基础，研究者利用其精心校正的2.5千个实例，驱动大型语言模型通过执行反馈自主探索有效的推理路径。这种基于验证数据的训练范式，使得模型能够在无需复杂多阶段流水线设计的情况下，直接提升内在的SQL逻辑推理能力，为后续的模型微调和性能评估奠定了可靠的数据基石。

衍生相关工作

BIRD-Verified的发布催生了一系列围绕高质量数据与简化架构的经典研究工作。其直接衍生的ReViSQL框架证明了无需复杂智能体流水线，仅通过数据质量提升与推理时扩展即可实现人类水平性能。该工作启发了后续研究对训练数据洁净度的重视，推动了如Arcwise-Plat-Full、Arcwise-Plat-SQL等专家验证评估集的构建。此外，基于该数据集的强化学习与可验证奖励方法，也为后续在Spider 2等更复杂基准上的泛化研究提供了可复现的范式，引领了文本到SQL领域从架构工程向数据驱动与内在推理能力提升的范式转变。

数据集最近研究