bird-interact-lite
收藏Hugging Face2025-06-17 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/birdsql/bird-interact-lite
下载链接
链接失效反馈官方服务:
资源简介:
BIRD-INTERACT是一个交互式text-to-SQL基准测试,它通过动态交互的视角来重新构想text-to-SQL评估。该环境融合了分层知识库、数据库文档和一个功能驱动的用户模拟器,以重现完整的CRUD操作的真实企业环境。它提供了两种严格的测试模式:被动的对话交互和主动的代理交互,包含600个带注释的任务,包括商业智能(BI)、CRUD操作等,每个任务都有可执行的测试用例。
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
在数据库交互领域,BIRD-INTERACT-LITE数据集的构建采用了层次化知识库与动态用户模拟相结合的方法。该数据集通过精心设计的PostgreSQL环境,模拟真实企业场景中的完整CRUD操作流程。研究团队标注了270个高质量任务实例,每个实例包含明确的用户查询、模糊查询变体、外部知识标注以及可执行的测试用例,并通过预处理SQL和清理SQL确保数据库状态可控。数据采集过程严格区分关键与非关键歧义,为文本到SQL转换研究提供了精准的评估框架。
特点
作为交互式文本到SQL评估基准,该数据集最显著的特点是实现了双重评估机制。被动式会话交互模式固定工作流程,而主动式智能体交互则支持动态决策过程。每个任务实例配备多维度标注要素,包括模糊查询注入、外部知识关联以及后续问题追踪,特别是通过测试用例验证和数据库状态管理,构建了闭环评估体系。其精简版本聚焦PostgreSQL场景,在保持专业深度的同时提升了实验效率。
使用方法
研究者可通过官方提供的Google Drive链接获取完整PostgreSQL数据库,数据集本体采用JSONL格式封装关键交互要素。需特别注意,为避免数据泄露,基准答案SQL和测试用例需通过邮件申请获取。评估代码库包含标准化的验证工具,支持对预测SQL进行执行验证。使用时应遵循预处理-执行-清理的标准流程,通过test_cases字段验证模型输出,并利用external_knowledge字段增强上下文理解能力。
背景与挑战
背景概述
BIRD-INTERACT-Lite数据集由BIRD团队与谷歌云合作构建,旨在通过动态交互重新定义文本到SQL的评估范式。该数据集于近期发布,专注于模拟真实企业环境中的复杂数据库操作,涵盖完整的CRUD功能。其核心研究问题聚焦于解决传统文本到SQL任务中静态评估与真实场景脱节的局限性,通过分层知识库、数据库文档和函数驱动的用户模拟器,构建了包含270个高质量PostgreSQL任务的轻量级基准。作为交互式评估的先驱工作,该数据集为数据库自然语言接口领域提供了更贴近实际应用的测试平台,当前最先进推理模型仅能解决约24%的被动交互任务和18%的主动代理任务,显著推动了该领域的研究边界。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需要解决动态交互环境下SQL生成的准确性难题,包括用户查询歧义消除(如注入的模糊性、非关键歧义和知识歧义)、多轮对话状态跟踪以及跨操作类型(BI分析、CRUD等)的泛化能力;在构建过程中,需克服真实业务场景模拟的复杂性,包括设计分层知识表示、开发函数驱动的用户模拟器,以及创建覆盖1,968-5,496个交互轮次的测试用例。数据脱敏处理导致解决方案SQL与测试用例需单独获取,这为研究复现设置了额外障碍。
常用场景
经典使用场景
在数据库查询语言转换领域,BIRD-INTERACT-LITE数据集通过模拟真实企业环境中的动态交互场景,为文本到SQL转换任务提供了标准化评估框架。其独特之处在于融合了分层知识库、数据库文档和功能驱动的用户模拟器,支持完整的CRUD操作验证。研究者通常利用该数据集测试模型在被动会话交互(c-Interact)和主动代理交互(a-Interact)两种模式下的表现,特别适用于评估复杂业务场景下的语义理解与SQL生成能力。
解决学术问题
该数据集有效解决了文本到SQL转换领域的关键挑战:真实场景中的动态交互建模与复杂歧义消解。通过精心设计的600个标注任务(精简版含270个),覆盖业务智能分析、数据库增删改查等操作,其注入的语义歧义和知识歧义为评估模型上下文理解能力提供了量化标准。当前最先进模型仅能解决约24%的会话式任务和18%的代理式任务,凸显了该基准在推动交互式查询理解研究方面的重要价值。
衍生相关工作
基于该数据集的前沿研究主要集中在增强型交互代理开发领域。Google Cloud团队利用其分层知识库结构,提出了融合外部知识的动态SQL生成框架;后续工作则扩展了基于强化学习的用户模拟器,通过数千次交互轮次优化对话策略。这些衍生研究显著推进了面向企业级应用的对话式数据分析系统发展,相关成果已应用于智能BI工具和自动化报表生成系统。
以上内容由遇见数据集搜集并总结生成



