PARROT
收藏arXiv2025-09-27 更新2025-10-01 收录
下载链接:
https://code4db.github.io/parrot-bench
下载链接
链接失效反馈官方服务:
资源简介:
PARROT是一个用于评估跨系统SQL翻译的实用且真实的基准数据集,它由来自38个开源基准和真实世界商业服务的598个翻译对组成,旨在挑战特定系统的SQL理解。它还提供了多个基准变体,包括PARROT-Diverse(包含28,003个翻译,用于广泛的语法测试)和PARROT-Simple(包含5,306个代表性样本,用于集中的压力测试),涵盖了22个生产级数据库系统。该数据集旨在促进未来研究,通过公开排行榜和源代码发布,供研究人员和实践者根据自己的需要定制评估。
PARROT is a practical and authentic benchmark dataset for evaluating cross-system SQL translation. It comprises 598 translation pairs sourced from 38 open-source benchmarks and real-world commercial services, aiming to challenge the SQL comprehension capabilities of specific database systems. It also offers multiple benchmark variants, including PARROT-Diverse (with 28,003 translation pairs for comprehensive syntax testing) and PARROT-Simple (with 5,306 representative samples for focused stress testing), covering 22 production-grade database systems. This dataset is intended to facilitate future research, with public leaderboards and source code released to allow researchers and practitioners to customize evaluations according to their respective needs.
提供机构:
上海交通大学, 清华大学, 字节跳动
创建时间:
2025-09-27
原始信息汇总
PARROT 数据集概述
数据集简介
PARROT(Practical And Realistic Benchmark for Cross-System SQL Translation)是一个专为跨系统SQL翻译任务设计的基准数据集,用于支持将一个数据库系统编写的查询转换为功能等效的另一种数据库系统查询。
数据集规模
- 主要数据集包含598个翻译对
- 来源于38个开源基准和真实业务服务
- 专门设计用于挑战系统特定的SQL理解能力
扩展版本
- PARROT-1.0版本包含28,003个翻译对
- 同样来源于38个开源基准
- 用于广泛的语法测试
性能表现
- 不同LLM在SQL到SQL翻译任务中的平均准确率低于38.53%
- 人类专家(翻译工具+数据库管理员)的准确率超过90.00%
评估指标
方言兼容性(AccEX)
- GPT-4o:53.32%
- DeepSeek-V3 671B:50.64%
- Claude 3.7 Sonnet:48.09%
结果一致性(AccRES)
- o3-mini:54.23%
- o1-preview:48.69%
- DeepSeek-R1 671B:40.52%
引用文献
bibtex @inproceedings{zhou2025parrot, author = {Wei Zhou and Guoliang Li and Haoyu Wang and Yuxing Han and Xufei Wu and Fan Wu and Xuanhe Zhou}, title = {PARROT: A Benchmark for Evaluating LLMs in Cross-System SQL Translation}, booktitle = {NeurIPS}, year = {2025} }
资源获取
数据集及相关使用说明已在GitHub仓库公开发布。
搜集汇总
数据集介绍

构建方式
在数据库系统异构化部署日益普遍的背景下,PARROT数据集采用多源融合与精细化标注流程构建。该数据集从38个开源基准和字节跳动内部业务场景中采集真实SQL查询,通过标准化预处理消除格式差异并实施三级匿名化保护隐私。基于前缀聚类的代表性样本筛选机制与代码覆盖率评估工具协同工作,确保保留结构复杂且语义多样的查询。采用规则引擎与大型语言模型结合的混合标注策略,生成跨22种数据库系统的等效SQL对,并通过语法解析器验证与执行结果一致性检测的双重校验流程,最终形成包含33,952个翻译对的高质量语料库。
特点
PARROT数据集的核心特征体现在其系统覆盖广度与方言特异性深度。该基准涵盖22种生产级数据库系统,包括PostgreSQL、MySQL、ClickHouse等主流平台,完整呈现不同系统在数据类型、内置函数、语法结构等方面的方言差异。其查询对设计精准捕捉七类典型翻译挑战,包括语法规则差异、关键字映射、用户定义函数转换等关键场景。数据复杂度呈现多级分布,既有面向广泛语法测试的PARROT-Diverse变体,也包含针对特定翻译类型的单元化测试集PARROT-Simple,同时提供基于真实企业级工作负载的专项评估模块,为模型能力诊断提供多维度视角。
使用方法
该数据集支持以功能等价性为核心的双重评估框架,研究者可通过语法兼容性指标(AccEX)检验翻译结果在目标系统中的可执行性,利用结果一致性指标(AccRES)验证语义等价性。评估流程集成参考执行器与模式规范化工具,支持跨系统查询结果的自动化比对。针对不同研究需求,提供三种标准化变体:基础版PARROT适用于综合能力评估,PARROT-Diverse适合系统兼容性广度测试,PARROT-Simple则专精于特定翻译难点的压力测试。通过配套开放的在线排行榜与完整工具链,研究者可便捷开展可复现的对比实验,推动跨系统SQL翻译技术的迭代发展。
背景与挑战
背景概述
随着异构数据库环境在企业中的广泛应用,跨系统SQL翻译成为数据库领域亟待解决的关键问题。2025年由上海交通大学、清华大学与字节跳动联合发布的PARROT基准测试集,首次系统性地构建了面向22种生产级数据库系统的跨方言SQL翻译评估体系。该数据集通过整合38个开源基准与企业级业务场景的598组翻译对,攻克了传统基准在系统覆盖度与方言特性捕捉方面的局限性,为大规模语言模型在数据库迁移场景中的能力评估提供了标准化范本。
当前挑战
在解决跨系统SQL翻译问题时,PARROT需应对两大核心挑战:其一,不同数据库系统间存在的语法规则差异、内置函数命名冲突及数据类型转换等方言特性,导致语义等价的SQL表达形式存在显著分歧;其二,在数据集构建过程中,需克服原始SQL查询的冗余性缺陷与单方言局限性,通过多轮语法校验与语义等效验证机制,确保翻译对在目标系统中的执行正确性与结果一致性。
常用场景
经典使用场景
在数据库系统异构化日益普遍的背景下,PARROT数据集被广泛应用于评估大型语言模型在跨系统SQL翻译任务中的性能表现。该数据集通过整合来自38个开源基准和真实业务场景的598对翻译样本,系统性地测试模型对22种生产级数据库系统特有方言的适应能力,例如将PostgreSQL的窗口函数语法转换为ClickHouse的等效实现,为研究社区提供了标准化的评估框架。
解决学术问题
PARROT有效解决了传统SQL基准在跨系统翻译研究中的局限性问题。现有基准如Spider和BIRD主要面向单系统文本到SQL任务,无法捕捉多方言间的语法差异与语义等价性。该数据集通过构建包含系统专属函数、数据类型和操作符的翻译对,显著提升了模型对SQL方言特性和功能等价关系的理解,为开发具备强泛化能力的翻译模型奠定了数据基础。
衍生相关工作
基于PARROT的评估范式催生了多项创新性研究,例如结合规则引擎与神经模型的混合翻译系统CrackSQL。该工作通过引入语义保持性验证机制,在保持翻译准确性的同时提升对复杂嵌套查询的处理能力。此外,数据集衍生的语法诊断工具链促进了针对特定方言对的专项优化,如针对MySQL与Oracle间存储过程转换的增强方法研究。
以上内容由遇见数据集搜集并总结生成



