BIRD-INTERACT

github2025-06-10 更新2025-06-15 收录

下载链接：

https://github.com/bird-bench/BIRD-Interact

下载链接

链接失效反馈

官方服务：

资源简介：

BIRD-INTERACT是一个交互式文本到SQL基准测试，通过动态交互的视角重新构想了文本到SQL的评估。该环境融合了分层知识库、数据库文档和功能驱动的用户模拟器，以重现真实的企业环境，涵盖完整的CRUD操作。它提供两种严格的测试模式：被动对话交互和主动代理交互，涵盖600个注释任务，包括商业智能(BI)、CRUD操作等，每个任务都有可执行的测试用例保护。

BIRD-INTERACT is an interactive text-to-SQL benchmark that reimagines text-to-SQL evaluation from the perspective of dynamic interaction. This environment integrates hierarchical knowledge bases, database documentation, and function-driven user simulators to replicate real-world enterprise scenarios, covering full CRUD operations. It offers two rigorous test modes: passive conversational interaction and active agent interaction, encompassing 600 annotated tasks including business intelligence (BI), CRUD operations and more, with each task protected by executable test cases.

创建时间：

2025-05-22

原始信息汇总

BIRD-INTERACT 数据集概述

数据集基本信息

名称: BIRD-INTERACT 1.0
类型: 交互式文本到SQL基准测试
开发者: BIRD Team & Google Cloud
许可证: CC BY-SA 4.0
HuggingFace数据集卡片: bird-interact-lite

数据集特点

评估方式: 通过动态交互重新构想文本到SQL的评估
环境特点:
- 混合分层知识库、数据库文档和功能驱动的用户模拟器
- 覆盖完整的CRUD操作
测试模式:
- c-Interact: 被动对话交互（固定工作流）
- a-Interact: 主动代理交互（动态工作流）

数据集版本

Lite版本:
- 名称: bird-interact-lite-exp
- 任务数量: 270个高质量真实世界任务
- 数据库: PostgreSQL
完整版本:
- 名称: bird-interact-full
- 任务数量: 600个任务
- 状态: 即将发布

数据内容

数据库: PostgreSQL数据库可从Google Drive下载
数据实例包含:
- 数据库名称
- 明确用户查询
- 含模糊性的用户查询
- 注入的模糊性说明
- 非关键模糊性
- 知识模糊性
- 真实SQL解决方案
- 预处理SQL
- 清理SQL
- 测试用例
- 后续问题
- 外部相关知识

模型性能

c-Interact模式

排名	模型名称	标准化奖励	等级
1	o3-mini	33.04	🏆 Excellent Chat
2	GPT-4o	30.33	💎 Good Chat
3	Gemini-2.0-flash	27.41	💎 Good Chat

a-Interact模式

排名	模型名称	预算参数	平均交互次数/任务	平均成本(美元)/任务	标准化奖励	等级
1	Claude-3.7-sonnet	6/6	15.4	$0.6668	29.19	🏆 Excellent Interaction
2	o3-mini	6/6	7.8	$0.0754	21.07	💎 Good Interaction
3	DeepSeek-V3	6/6	15.6	$0.0629	19.19	💎 Good Interaction

交互时间扩展(ITS)

定义: 模型通过多轮交互持续提升最终性能的能力
ITS定律: 当交互性能超过模型在完全明确任务上的单轮性能时满足
当前唯一满足模型: claude-3-7-sonnet

获取方式

完整解决方案SQL和测试用例需通过邮件申请
联系邮箱: bird.bench25@gmail.com
邮件标题需包含: [bird-interact-lite GT&Test Cases]

目录结构

. ├── LICENSE ├── README.md ├── bird_interact_conv ├── bird_interact_agent ├── evaluation ├── materials └── requirements.txt

搜集汇总

数据集介绍

构建方式

BIRD-INTERACT数据集的构建充分考虑了真实企业环境中的动态交互需求，通过融合层次化知识库、数据库文档和函数驱动的用户模拟器，重现了完整的CRUD操作场景。该数据集包含600个标注任务，涵盖商业智能和CRUD操作等多种类型，每个任务均配有可执行的测试用例。构建过程中特别设计了两种评估模式：被动式对话交互和主动式代理交互，以全面测试模型在不同情境下的表现。数据采集严格遵循企业级标准，确保任务复杂度和真实性的平衡。

特点

BIRD-INTERACT数据集以其创新的交互式评估框架脱颖而出，突破了传统文本转SQL评估的静态局限。该数据集包含270个精简版和600个完整版的高质量真实任务，特别设计了模糊查询和知识歧义等挑战性元素。其独特之处在于引入了交互时间扩展(ITS)概念，能够有效评估模型在多轮对话中的持续学习能力。数据集采用分层知识表示，整合了业务场景特有的外部知识，并提供了详尽的测试用例和预处理SQL脚本，为模型评估提供了全面的验证框架。

使用方法

使用BIRD-INTERACT数据集时，研究人员可通过HuggingFace平台获取精简版本，完整版本需通过邮件申请获取。数据集支持两种主要使用模式：基于固定流程的对话交互评估和模型主导的动态代理交互评估。评估过程需要配置PostgreSQL环境，并运行提供的测试脚本验证模型输出。数据集特别设计了防止数据泄露的机制，核心解决方案和测试用例需单独申请。使用前需仔细阅读各子目录的说明文档，确保正确配置评估环境和理解交互协议。

背景与挑战

背景概述

BIRD-INTERACT是由香港大学与Google Cloud联合研发的交互式文本到SQL基准测试数据集，旨在通过动态交互的视角重新定义文本到SQL的评估标准。该数据集构建于2025年，其核心研究问题聚焦于模拟真实企业环境中复杂的数据库操作场景，涵盖完整的CRUD（创建、读取、更新、删除）操作。通过融合分层知识库、数据库文档和函数驱动的用户模拟器，BIRD-INTERACT为研究者提供了两种严格的测试模式：被动式对话交互和主动式代理交互，包含600个标注任务，涉及商业智能和CRUD操作等多个领域。该数据集的推出显著推动了自然语言处理与数据库交互领域的研究，为评估模型在动态交互环境中的表现设立了新标杆。

当前挑战

BIRD-INTERACT数据集在解决文本到SQL转换问题的过程中面临多重挑战。领域层面，现有模型在动态交互环境中的表现仍显不足，顶级推理模型仅能完成约24%的被动交互任务和18%的主动交互任务，凸显了模型在理解模糊查询、处理多轮对话以及适应动态工作流方面的局限性。构建过程中，研究团队需克服真实企业环境模拟的复杂性，包括设计具有层次结构的知识库、生成包含歧义的用户查询以及开发可靠的测试用例。此外，数据集的规模与多样性要求对600个任务进行精细标注，确保每个任务均配备可执行的测试案例，这进一步增加了构建难度。这些挑战共同促使BIRD-INTERACT成为评估文本到SQL模型交互能力的严格测试平台。

常用场景

经典使用场景

BIRD-INTERACT数据集在自然语言处理领域，尤其是文本到SQL转换任务中，展现了其独特的价值。通过模拟真实的企业环境，该数据集支持动态交互式评估，涵盖了完整的CRUD操作。研究人员可以利用其两种测试模式——被动式对话交互和主动式代理交互，来评估模型在复杂查询场景下的表现。这种设计使得BIRD-INTERACT成为评估文本到SQL模型鲁棒性和交互能力的理想选择。

实际应用

在实际应用中，BIRD-INTERACT数据集为企业级数据库系统的开发提供了重要参考。其模拟的商务智能和CRUD操作场景可直接应用于企业数据管理系统的开发测试。数据库厂商和AI解决方案提供商可以利用该数据集来优化其产品的自然语言接口，提升系统在复杂查询场景下的准确性和用户体验。同时，该数据集也为教育培训领域提供了高质量的实践材料。

衍生相关工作

BIRD-INTERACT数据集已经衍生出多项重要研究工作，特别是在交互式文本到SQL领域。基于该数据集，研究人员开发了新型的评估指标和方法，如交互时间扩展定律(ITS)的提出。多家机构利用该数据集对主流大语言模型进行了系统性评估，推动了对话式数据库接口技术的发展。这些工作不仅验证了数据集的实用价值，也为后续研究奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集