bird-interact-full

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/birdsql/bird-interact-full

下载链接

链接失效反馈

官方服务：

资源简介：

BIRD-INTERACT是一个互动式的text-to-SQL基准测试，通过结合层次化知识库、数据库文档和一个函数驱动的用户模拟器，重现了全CRUD操作的真实企业环境。支持两种测试模式：被动的对话交互和主动的代理交互。数据集分为轻量版和完整版，轻量版包含270个针对PostgreSQL的高质量现实世界任务，完整版包含600个任务。

创建时间：

2025-08-23

原始信息汇总

BIRD-INTERACT-FULL 数据集概述

基本信息

许可证：cc-by-sa-4.0
数据集名称：bird-interact-full
数据文件：bird_interact_data.jsonl（开发集）
标签：text-to-sql、database

数据集简介

BIRD-INTERACT是一个交互式文本到SQL基准测试，通过动态交互的视角重新构想了文本到SQL评估。该环境融合了分层知识库、数据库文档和函数驱动的用户模拟器，以在企业环境中重现完整的CRUD操作。

评估模式

c-Interact（对话式交互）：被动模式，工作流程固定。
a-Interact（代理式交互）：主动模式，工作流程动态并由模型引导。

版本对比

Lite版本：包含270个高质量的PostgreSQL真实世界任务。
完整版本：包含600个PostgreSQL任务，涵盖更多任务、更多数据库，包含N2M关系和更多噪声数据。

数据内容

每个数据实例包含以下主要部分：

选定数据库名称
明确的用户查询
注入歧义的用户查询
用户查询歧义
非关键歧义（如排序、限制等）
知识歧义
真实SQL解决方案
预处理SQL查询
清理SQL查询
测试用例集
标注的后续问题
相关外部知识

数据库信息

完整的PostgreSQL数据库和构建脚本可从Google Drive下载（https://drive.google.com/file/d/1V9SFIWebi27JtaDUAScG1xE9ELbYcWLR/view?usp=sharing）。

评估代码

评估代码可在./evaluation目录中找到。

数据获取

为避免自动爬取导致的数据泄露，数据集中不包含真实解决方案SQL和测试用例。如需获取完整集合，请发送邮件至bird.bench25@gmail.com，标题注明[bird-interact-full GT&Test Cases]。

创建信息

创建者：BIRD团队和Google Cloud
许可证：知识共享署名-相同方式共享4.0国际许可证（https://creativecommons.org/licenses/by-sa/4.0/）

搜集汇总

数据集介绍

构建方式

在文本到SQL转换领域，BIRD-INTERACT-FULL数据集的构建采用了层次化知识库与数据库文档的深度融合机制，通过函数驱动的用户模拟器真实还原企业级动态交互环境。该数据集精心设计了600个标注任务，涵盖商业智能分析和完整的CRUD操作场景，每个任务均配备可执行的测试用例。构建过程中特别注入了多维度模糊性要素，包括关键知识模糊性和非关键操作模糊性，确保数据的高复杂度和真实性。

特点

该数据集的核心特征体现在其双模式评估体系：被动式会话交互与主动式智能体交互，能够触发1968至5496次动态交互轮次。数据集包含多对多关系数据库和噪声数据，通过歧义用户查询和外部知识掩码机制增强挑战性。其独特价值在于提供预处理SQL、清理SQL和验证测试用例的全套解决方案，并严格防范数据泄露风险，仅通过授权方式提供完整标注数据。

使用方法

研究人员需首先从指定云端存储下载完整的PostgreSQL数据库及构建脚本，通过初始化脚本还原真实数据库环境。使用时应区分会话交互与智能体交互两种模式，分别调用对应的评估模块。执行预测前需运行预处理SQL确保环境一致性，完成后通过测试用例验证结果准确性，最后执行清理SQL恢复数据库状态。完整标注数据需通过官方邮件申请获取，以确保学术使用的规范性。

背景与挑战

背景概述

BIRD-INTERACT数据集由BIRD团队与Google Cloud于2025年联合构建，标志着文本到SQL转换领域向动态交互评估范式的重要演进。该数据集通过分层知识库、数据库文档与函数驱动的用户模拟器，重构企业级数据库操作环境，涵盖完整的CRUD操作与商业智能场景。其600个标注任务包含被动对话交互与主动代理交互双模式评估，推动文本到SQL系统在真实环境中的适应能力，对数据库自然语言接口研究具有里程碑意义。

当前挑战

该数据集核心挑战在于解决企业级文本到SQL转换中的动态歧义消解与多轮交互问题，包括用户查询的语义模糊性、外部知识整合复杂性以及跨数据库CRUD操作的执行验证。构建过程中需克服大规模真实数据库的环境仿真、标注一致性维护以及对抗自动爬取的数据泄露防护等难题，其设计的可执行测试用例与分层知识注入机制进一步提高了系统实现的复杂度。

常用场景

经典使用场景

在数据库与自然语言处理交叉领域，BIRD-INTERACT-FULL数据集通过模拟真实企业环境中的动态交互场景，为文本到SQL转换任务提供了经典评估框架。该数据集支持被动对话交互和主动代理交互两种模式，涵盖商业智能分析和完整CRUD操作，研究者可利用其600个标注任务和分层知识库验证模型在复杂查询处理、歧义消解及多轮对话中的性能表现。

实际应用

在企业级数据库管理系统和智能数据分析平台中，BIRD-INTERACT-FULL能够直接应用于商业智能工具的自然语言接口开发。通过模拟真实用户与数据库的交互过程，该数据集助力构建能够理解模糊查询、处理多轮澄清对话的智能代理系统，大幅提升金融、电商等领域中非技术用户通过自然语言进行复杂数据检索与操作的效率与准确性。

衍生相关工作

基于BIRD-INTERACT-FULL数据集，研究者已开发出多项创新工作，包括面向PostgreSQL的轻量级评测基准bird-interact-lite，以及分别针对对话式交互和代理式交互的专项评估框架。这些衍生工作不仅扩展了原数据集的适用场景，更推动了交互式文本到SQL模型中用户模拟器构建、动态工作流优化等关键技术的突破性进展。

以上内容由遇见数据集搜集并总结生成