DySQL-Bench

Name: DySQL-Bench
Creator: 中国科学院大学，北京大学，清华大学
Published: 2025-10-30 21:44:22
License: 暂无描述

arXiv2025-10-30 更新2025-11-01 收录

下载链接：

https://github.com/Aurora-slz/RealWorld-SQL-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

DySQL-Bench是一个大规模的动态多轮Text-to-SQL任务基准，涵盖了完整的CRUD操作。它通过一个自动化的两阶段数据合成流程构建，包括任务合成和任务验证。任务合成阶段将原始数据库表转换为结构化的树表示，每个表示捕获完整用户记录内的逻辑关系。任务验证阶段通过一个面向交互的质量控制模块筛选和验证LLM生成的任务，然后由人类专家验证以确保语义准确性和执行一致性。DySQL-Bench集成了来自BIRD和Spider 2的数据库，跨越13个领域，包括1072个评估任务。

DySQL-Bench is a large-scale dynamic multi-turn Text-to-SQL benchmark that covers full CRUD operations. It is constructed via an automated two-stage data synthesis pipeline consisting of task synthesis and task validation. In the task synthesis stage, raw database tables are converted into structured tree representations, each of which captures the logical relationships within complete user records. The task validation stage filters and validates LLM-generated tasks through an interaction-oriented quality control module, followed by human expert verification to ensure semantic accuracy and execution consistency. DySQL-Bench integrates databases from BIRD and Spider 2, spanning 13 domains and including 1072 evaluation tasks.

提供机构：

中国科学院大学，北京大学，清华大学

创建时间：

2025-10-30

搜集汇总

数据集介绍

构建方式

在数据库交互研究领域，DySQL-Bench的构建采用了一种创新的自动化两阶段流程。首先，通过任务合成阶段将原始数据库表转化为结构化的树状表示，捕捉实体间的逻辑关系，作为大型语言模型生成多样化评估任务的基础。随后，在任务验证阶段，引入交互导向的质量控制模块过滤错误样本，并结合专家验证确保数据的语义准确性和执行一致性，最终通过严格的人工评估实现了100%的数据正确率。

特点

该数据集的核心特点在于其动态多轮交互设计，覆盖了完整的CRUD操作谱系，包括创建、读取、更新和删除。数据集整合了来自BIRD和Spider 2的13个领域数据库，包含1,072个评估任务，其中UPDATE操作占比高达49.64%，突显了对状态变更推理能力的重点考察。这种设计有效模拟了真实场景中用户意图随交互过程演变的特性，为评估模型在动态环境中的适应能力提供了全面测试平台。

使用方法

在应用层面，DySQL-Bench采用三角色交互框架进行评估：由大型语言模型模拟的用户根据任务指令发起动态交互，被评估模型负责生成并执行SQL查询，可执行的数据库系统则提供实时反馈。这种设置能够系统评估模型在维护对话状态、从执行错误中恢复以及调整推理策略等方面的能力。评估过程采用Passˆk指标，通过多次独立试验衡量模型在随机交互环境下的稳定性和可靠性，为研究多轮文本到SQL转换提供了标准化测试环境。

背景与挑战

背景概述

DySQL-Bench作为2025年发布的动态多轮文本转SQL基准数据集，由北京大学与中国科学院大学联合团队主导开发。该数据集针对传统文本转SQL研究中静态单轮交互的局限性，聚焦于真实场景下用户意图动态演变的数据库探索需求。通过整合BIRD与Spider 2的13个领域数据库，构建了涵盖完整CRUD操作谱系的1072个评估任务，为金融分析、商业智能等领域的交互式数据查询提供了标准化评估框架。其创新性的三角色交互模拟机制——用户模拟器、评估模型与可执行数据库系统，显著推动了对话式数据库接口技术的发展。

当前挑战

在领域问题层面，DySQL-Bench致力于解决动态多轮SQL交互中用户意图持续演变的建模挑战，要求模型具备跨轮次状态维持、错误恢复与策略调整能力。现有模型如GPT-4o在基准测试中仅达58.34%整体准确率，暴露出复杂约束条件下语义解析与执行计划优化的技术瓶颈。构建过程中面临双重挑战：其一是自动化任务合成需克服数据库模式到树状结构的语义转换难题，通过外键关系递归构建层次化表示；其二是数据质量保障需经多阶段验证流程，包括基于大语言模型的委员会审核、参数回填优化及专家人工校验，最终实现100%语法正确性与语义一致性的数据交付。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，DySQL-Bench作为首个专注于动态多轮交互的文本到SQL基准测试集，其经典应用场景体现在模拟真实业务环境中用户意图的渐进式演化过程。该数据集通过构建用户-模型-数据库三方交互框架，使研究者能够评估语言模型在金融分析、商业智能等场景下，如何根据中间结果动态调整查询约束条件或操作维度，从而突破传统单轮静态查询的局限性。

衍生相关工作

该数据集的发布催生了多个重要研究方向，包括基于强化学习的动态SQL生成框架、面向多轮对话的上下文建模方法，以及针对CRUD操作混合执行的验证机制。具体衍生工作如MAC-SQL提出的多智能体协作架构，通过分解模式链接与SQL生成步骤来提升交互稳定性；DTS-SQL则利用选择性数据增强技术，探索了小规模模型在动态场景下的适应能力，这些研究共同推动了交互式数据库访问技术的范式演进。

数据集最近研究