mini-interact
收藏Hugging Face2025-11-19 更新2025-11-20 收录
下载链接:
https://huggingface.co/datasets/birdsql/mini-interact
下载链接
链接失效反馈官方服务:
资源简介:
Mini-Interact是一个轻量级的文本到SQL交互式评估数据集,它使用SQLite作为后端数据库,并包含模糊商务智能查询。该数据集旨在促进交互式文本到SQL方法的发展,并支持并行评估。每个数据实例包括数据库名称、带有注入模糊性的用户查询、用户查询中的模糊性、非关键模糊性、由遮蔽的外部知识产生的模糊性、真实SQL解决方案、预处理SQL、清理SQL、测试用例和与特定任务相关的外部知识。
创建时间:
2025-11-12
原始信息汇总
Mini-Interact 数据集概述
基本信息
- 数据集名称: Mini-Interact
- 许可证: CC-BY-SA-4.0
- 标签: text-to-sql, database
数据集描述
Mini-Interact 是 BIRD-INTERACT 的轻量级版本,专注于通过动态交互重新构想 Text-to-SQL 评估,促进交互式 text-to-SQL 方法的快速开发。
核心特性
与 BIRD-INTERACT 的独特差异
- 数据库后端: 使用 SQLite 替代 PostgreSQL,无需设置 Docker
- 模糊业务智能查询: 包含 300 个任务,每个任务具有模糊的业务智能用户查询
- 模糊类型: 基于知识的模糊性
- 并行评估: 支持并行运行多个评估实验
保留的 BIRD-INTERACT 特性
- 交互式评估
- 支持两种评估模式:
- 对话式交互
- 智能体交互
可用版本
知识型模糊版本
- 状态: 当前可用
- 特点: 处理由不完整知识库、不明确信息和上下文相关解释引起的模糊性
个性化模糊版本
- 状态: 即将推出
- 特点: 处理用户特定偏好和基于用户历史的上下文适应
数据内容
每个数据实例包含以下主要部分:
selected_database: 数据库名称amb_user_query: 注入模糊性的用户查询user_query_ambiguity: 用户查询中的模糊性non_critical_ambiguity: 非关键模糊性knowledge_ambiguity: 由屏蔽外部知识创建的模糊性sol_sql: 真实 SQL 解决方案preprocess_sql: 执行前运行的 SQL 查询clean_up_sql: 测试后恢复数据库的 SQL 查询test_cases: 验证预测 SQL 的测试用例集external_knowledge: 任务相关的外部知识
使用说明
- 通过克隆仓库下载任务文件、数据库和数据库元文件
- 通过邮件申请获取真实 SQL 解决方案和测试用例
- 参考 GitHub 仓库中的指南集成真实数据字段
开发路线图
| 功能 | 状态 |
|---|---|
| SELECT 查询 | 已发布 |
| CRUD 操作 | 即将推出 |
| 知识型模糊性 | 已发布 |
| 个性化模糊性 | 即将推出 |
| 后续问题 | 即将推出 |
创建信息
- 策划方: BIRD Team & Google Cloud
- 许可证: https://creativecommons.org/licenses/by-sa/4.0/
搜集汇总
数据集介绍

构建方式
在文本到SQL交互评估领域,Mini-Interact数据集作为BIRD-INTERACT的轻量化版本,其构建过程体现了工程优化理念。该数据集采用SQLite作为数据库后端,避免了复杂的PostgreSQL环境配置,显著降低了使用门槛。数据收集聚焦于300个具有业务智能模糊性的查询任务,每个任务都经过精心设计,将模糊用户查询与后续问题解耦处理。构建过程中特别注重知识型模糊度的注入,通过外部知识掩码技术模拟真实场景中的信息不完整性,为模型处理不确定性问题提供了丰富的训练素材。
使用方法
使用该数据集时,研究人员首先需要克隆整个代码仓库获取任务文件、数据库及相关元数据文件。为避免数据泄露风险,数据集中不包含标准答案SQL和测试用例,需通过邮件申请获取完整数据集。随后按照官方指南将公开数据与标准答案字段进行整合,确保数据完整性。评估过程中,研究者可以灵活选择对话式或智能体式交互模式,利用数据集提供的预处理SQL和清理SQL维护数据库状态一致性。通过运行测试用例验证预测SQL的正确性,实现对整个交互过程的系统性评估。
背景与挑战
背景概述
文本到SQL转换作为自然语言处理与数据库管理交叉领域的前沿课题,旨在构建能够理解人类自然语言查询并生成对应结构化查询语句的智能系统。Mini-Interact数据集由BIRD团队与Google Cloud于2024年联合推出,作为BIRD-INTERACT项目的轻量化版本,其核心研究聚焦于动态交互场景下的模糊性解析问题。该数据集通过模拟商业智能场景中存在的知识不完整性与语义模糊性,为开发高效的交互式文本到SQL方法提供了标准化测试平台,显著推动了对话式数据库查询系统的实用化进程。
当前挑战
文本到SQL领域长期面临语义歧义消解与上下文依赖建模的双重挑战,特别是在涉及多轮交互的商业智能场景中,用户查询往往隐含未明示的领域知识或个性化需求。数据集构建过程中需攻克多模态知识融合的技术瓶颈,包括如何精准标注知识型模糊与个性化模糊的边界,以及设计能动态适应数据库状态变化的测试用例。此外,为保持评估过程的严谨性,需建立防止数据泄露的隔离机制,并确保SQLite与PostgreSQL等不同数据库后端在语义等价性验证上的一致性。
常用场景
经典使用场景
在自然语言处理与数据库交互领域,Mini-Interact数据集作为轻量级文本转SQL评估工具,专注于处理商业智能查询中的模糊性问题。其核心应用场景包括模拟动态交互环境,支持研究者快速测试模型在知识不完备或语义模糊条件下的解析能力。通过集成SQLite后端与预定义模糊查询任务,该数据集为开发交互式文本转SQL方法提供了标准化实验平台。
解决学术问题
该数据集有效解决了文本转SQL系统中长期存在的语义歧义性挑战,特别是针对外部知识缺失与上下文依赖的解析难题。通过引入知识型模糊性任务,它推动了模型对非完整信息场景的鲁棒性研究,为评估系统在真实商业环境中的适应性提供了量化基准。其交互式评估框架进一步深化了对话式SQL生成与智能体交互模式的理论探索。
实际应用
在实际部署层面,Mini-Interact可广泛应用于智能数据分析系统与商业决策支持平台。企业可通过该数据集训练的模型,将模糊的自然语言查询转化为精确的数据库操作,显著提升非技术用户的数据检索效率。其轻量化特性尤其适合资源受限的边缘计算场景,为金融、电商等领域的实时数据交互提供可靠技术支撑。
数据集最近研究
最新研究方向
在文本到SQL转换领域,Mini-Interact数据集正推动交互式方法的前沿探索。其通过模拟动态交互场景,聚焦于知识型模糊性处理,为模型应对不完整知识库与上下文依赖的挑战提供了标准化测试平台。当前研究热点集中于开发能够自主澄清模糊商业智能查询的智能代理,结合个性化歧义解析与多轮对话机制,显著提升了复杂数据库查询的准确性与实用性。这一进展不仅加速了企业级数据分析系统的智能化转型,更推动了自然语言处理与数据库管理系统的深度融合。
以上内容由遇见数据集搜集并总结生成



