BIRD-INTERACT
收藏github2025-06-10 更新2025-06-15 收录
下载链接:
https://github.com/bird-bench/BIRD-Interact
下载链接
链接失效反馈官方服务:
资源简介:
BIRD-INTERACT是一个交互式文本到SQL基准测试,通过动态交互的视角重新构想了文本到SQL的评估。该环境融合了分层知识库、数据库文档和功能驱动的用户模拟器,以重现真实的企业环境,涵盖完整的CRUD操作。它提供两种严格的测试模式:被动对话交互和主动代理交互,涵盖600个注释任务,包括商业智能(BI)、CRUD操作等,每个任务都有可执行的测试用例保护。
BIRD-INTERACT is an interactive text-to-SQL benchmark that reimagines text-to-SQL evaluation from the perspective of dynamic interaction. This environment integrates hierarchical knowledge bases, database documentation, and function-driven user simulators to replicate real-world enterprise scenarios, covering full CRUD operations. It offers two rigorous test modes: passive conversational interaction and active agent interaction, encompassing 600 annotated tasks including business intelligence (BI), CRUD operations and more, with each task protected by executable test cases.
创建时间:
2025-05-22
原始信息汇总
BIRD-INTERACT 数据集概述
数据集基本信息
- 名称: BIRD-INTERACT 1.0
- 类型: 交互式文本到SQL基准测试
- 开发者: BIRD Team & Google Cloud
- 许可证: CC BY-SA 4.0
- HuggingFace数据集卡片: bird-interact-lite
数据集特点
- 评估方式: 通过动态交互重新构想文本到SQL的评估
- 环境特点:
- 混合分层知识库、数据库文档和功能驱动的用户模拟器
- 覆盖完整的CRUD操作
- 测试模式:
- c-Interact: 被动对话交互(固定工作流)
- a-Interact: 主动代理交互(动态工作流)
数据集版本
- Lite版本:
- 名称:
bird-interact-lite-exp - 任务数量: 270个高质量真实世界任务
- 数据库: PostgreSQL
- 名称:
- 完整版本:
- 名称:
bird-interact-full - 任务数量: 600个任务
- 状态: 即将发布
- 名称:
数据内容
- 数据库: PostgreSQL数据库可从Google Drive下载
- 数据实例包含:
- 数据库名称
- 明确用户查询
- 含模糊性的用户查询
- 注入的模糊性说明
- 非关键模糊性
- 知识模糊性
- 真实SQL解决方案
- 预处理SQL
- 清理SQL
- 测试用例
- 后续问题
- 外部相关知识
模型性能
c-Interact模式
| 排名 | 模型名称 | 标准化奖励 | 等级 |
|---|---|---|---|
| 1 | o3-mini | 33.04 | 🏆 Excellent Chat |
| 2 | GPT-4o | 30.33 | 💎 Good Chat |
| 3 | Gemini-2.0-flash | 27.41 | 💎 Good Chat |
a-Interact模式
| 排名 | 模型名称 | 预算参数 | 平均交互次数/任务 | 平均成本(美元)/任务 | 标准化奖励 | 等级 |
|---|---|---|---|---|---|---|
| 1 | Claude-3.7-sonnet | 6/6 | 15.4 | $0.6668 | 29.19 | 🏆 Excellent Interaction |
| 2 | o3-mini | 6/6 | 7.8 | $0.0754 | 21.07 | 💎 Good Interaction |
| 3 | DeepSeek-V3 | 6/6 | 15.6 | $0.0629 | 19.19 | 💎 Good Interaction |
交互时间扩展(ITS)
- 定义: 模型通过多轮交互持续提升最终性能的能力
- ITS定律: 当交互性能超过模型在完全明确任务上的单轮性能时满足
- 当前唯一满足模型: claude-3-7-sonnet
获取方式
- 完整解决方案SQL和测试用例需通过邮件申请
- 联系邮箱: bird.bench25@gmail.com
- 邮件标题需包含:
[bird-interact-lite GT&Test Cases]
目录结构
. ├── LICENSE ├── README.md ├── bird_interact_conv ├── bird_interact_agent ├── evaluation ├── materials └── requirements.txt
搜集汇总
数据集介绍

构建方式
BIRD-INTERACT数据集的构建充分考虑了真实企业环境中的动态交互需求,通过融合层次化知识库、数据库文档和函数驱动的用户模拟器,重现了完整的CRUD操作场景。该数据集包含600个标注任务,涵盖商业智能和CRUD操作等多种类型,每个任务均配有可执行的测试用例。构建过程中特别设计了两种评估模式:被动式对话交互和主动式代理交互,以全面测试模型在不同情境下的表现。数据采集严格遵循企业级标准,确保任务复杂度和真实性的平衡。
特点
BIRD-INTERACT数据集以其创新的交互式评估框架脱颖而出,突破了传统文本转SQL评估的静态局限。该数据集包含270个精简版和600个完整版的高质量真实任务,特别设计了模糊查询和知识歧义等挑战性元素。其独特之处在于引入了交互时间扩展(ITS)概念,能够有效评估模型在多轮对话中的持续学习能力。数据集采用分层知识表示,整合了业务场景特有的外部知识,并提供了详尽的测试用例和预处理SQL脚本,为模型评估提供了全面的验证框架。
使用方法
使用BIRD-INTERACT数据集时,研究人员可通过HuggingFace平台获取精简版本,完整版本需通过邮件申请获取。数据集支持两种主要使用模式:基于固定流程的对话交互评估和模型主导的动态代理交互评估。评估过程需要配置PostgreSQL环境,并运行提供的测试脚本验证模型输出。数据集特别设计了防止数据泄露的机制,核心解决方案和测试用例需单独申请。使用前需仔细阅读各子目录的说明文档,确保正确配置评估环境和理解交互协议。
背景与挑战
背景概述
BIRD-INTERACT是由香港大学与Google Cloud联合研发的交互式文本到SQL基准测试数据集,旨在通过动态交互的视角重新定义文本到SQL的评估标准。该数据集构建于2025年,其核心研究问题聚焦于模拟真实企业环境中复杂的数据库操作场景,涵盖完整的CRUD(创建、读取、更新、删除)操作。通过融合分层知识库、数据库文档和函数驱动的用户模拟器,BIRD-INTERACT为研究者提供了两种严格的测试模式:被动式对话交互和主动式代理交互,包含600个标注任务,涉及商业智能和CRUD操作等多个领域。该数据集的推出显著推动了自然语言处理与数据库交互领域的研究,为评估模型在动态交互环境中的表现设立了新标杆。
当前挑战
BIRD-INTERACT数据集在解决文本到SQL转换问题的过程中面临多重挑战。领域层面,现有模型在动态交互环境中的表现仍显不足,顶级推理模型仅能完成约24%的被动交互任务和18%的主动交互任务,凸显了模型在理解模糊查询、处理多轮对话以及适应动态工作流方面的局限性。构建过程中,研究团队需克服真实企业环境模拟的复杂性,包括设计具有层次结构的知识库、生成包含歧义的用户查询以及开发可靠的测试用例。此外,数据集的规模与多样性要求对600个任务进行精细标注,确保每个任务均配备可执行的测试案例,这进一步增加了构建难度。这些挑战共同促使BIRD-INTERACT成为评估文本到SQL模型交互能力的严格测试平台。
常用场景
经典使用场景
BIRD-INTERACT数据集在自然语言处理领域,尤其是文本到SQL转换任务中,展现了其独特的价值。通过模拟真实的企业环境,该数据集支持动态交互式评估,涵盖了完整的CRUD操作。研究人员可以利用其两种测试模式——被动式对话交互和主动式代理交互,来评估模型在复杂查询场景下的表现。这种设计使得BIRD-INTERACT成为评估文本到SQL模型鲁棒性和交互能力的理想选择。
实际应用
在实际应用中,BIRD-INTERACT数据集为企业级数据库系统的开发提供了重要参考。其模拟的商务智能和CRUD操作场景可直接应用于企业数据管理系统的开发测试。数据库厂商和AI解决方案提供商可以利用该数据集来优化其产品的自然语言接口,提升系统在复杂查询场景下的准确性和用户体验。同时,该数据集也为教育培训领域提供了高质量的实践材料。
衍生相关工作
BIRD-INTERACT数据集已经衍生出多项重要研究工作,特别是在交互式文本到SQL领域。基于该数据集,研究人员开发了新型的评估指标和方法,如交互时间扩展定律(ITS)的提出。多家机构利用该数据集对主流大语言模型进行了系统性评估,推动了对话式数据库接口技术的发展。这些工作不仅验证了数据集的实用价值,也为后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



