BIRDTurk

Name: BIRDTurk
Creator: Roketsan公司·人工智能技术部门; 中东技术大学·计算机工程系
Published: 2026-02-03 23:21:00
License: 暂无描述

arXiv2026-02-03 更新2026-02-05 收录

下载链接：

https://github.com/metunlp/birdturk

下载链接

链接失效反馈

官方服务：

资源简介：

BIRDTurk是首个针对土耳其语优化的文本到SQL数据集，由Roketsan公司和中东技术大学联合开发，基于BIRD基准数据集进行本地化适配。该数据集包含10962条高质量数据，覆盖95个真实数据库和37个领域，平均每个数据库包含7.3个表和约54.9万行数据。通过中央极限定理验证的统计方法确保翻译准确率达到98.15%，同时保持原始SQL查询的执行语义不变。数据集特别关注土耳其语特有的形态学特征和SOV语序对语义解析的挑战，为跨语言文本到SQL系统的评估提供了标准化测试平台。

提供机构：

Roketsan公司·人工智能技术部门; 中东技术大学·计算机工程系

创建时间：

2026-02-03

原始信息汇总

BIRDTurk 数据集概述

数据集基本信息

数据集名称：BIRDTurk
原始来源：BIRD (BigBench for Relational Databases) Text-to-SQL 基准的土耳其语改编版
发布状态：已提交至 EACL 2026 SIGTURK，最终版本将收录于会议论文集
论文链接：https://arxiv.org/abs/2602.03633
数据集获取地址：https://huggingface.co/datasets/metunlp/birdturk

研究背景与动机

现有先进的 Text-to-SQL 模型主要在英语数据集上进行训练和评估，在英语上表现良好，但在土耳其语等形态丰富的语言上性能显著下降。
本数据集旨在量化纯粹由语言转换导致的性能下降，识别系统性的跨语言失败模式，并为 Text-to-SQL 研究提供一个可复现的土耳其语基准。

数据集构成与特点

原始 BIRD 数据集

包含 12,751 个自然语言问题
涉及 95 个真实世界数据库
覆盖 37 个不同领域
SQL 查询复杂（包含连接、嵌套查询、聚合操作）
规模庞大（约 33.4 GB）

BIRDTurk 数据集

对 BIRD 问题进行了一对一土耳其语翻译
SQL 查询完全一致（未作修改）
数据库模式和执行逻辑完全保留
翻译过程已验证语义和执行等价性
核心设计原则：仅改变自然语言层，SQL 和数据库保持不变

翻译与验证过程

采用受控的人机协同翻译流程
重点关注语义保真度、模式对齐和查询可执行性
通过人工评估员进行统计抽样验证
在 95% 置信水平下达到 98.15% 的翻译准确率
确保基准测量的是语言效应，而非翻译噪声

实验评估范式

基于推理的提示：零样本/少样本提示，无任务特定训练，衡量原始多语言泛化能力。
智能体多阶段推理：显式推理分解，工具增强或分步推理，对语言变化更具鲁棒性。
监督微调：在标注的 Text-to-SQL 数据上进行微调，使用多语言和指令调优模型进行测试。

主要研究发现

系统性性能下降：所有模型在土耳其语上的表现均差于英语，性能下降在不同架构中表现一致。
智能体推理更具鲁棒性：多阶段推理降低了语言敏感性，改善了模式落地和意图解析能力。
微调效果有限：仅有多语言预训练不足，指令调优模型受益更多，形态学和分词仍是未解决的挑战。

数据集独特性

方面	先前基准	BIRDTurk
目标语言	英语	土耳其语
数据集规模	中小型	大规模（BIRD 级别）
SQL 复杂性	通常简化	完整的真实世界 SQL
跨语言控制	弱	严格受控
验证	有限	统计验证
研究重点	仅准确性	语言诱发效应

BIRDTurk 是一个受控的跨语言实验，而非简单的翻译。

土耳其语揭示的模型弱点

黏着语形态
灵活的词序
隐式参数
间接模式引用
子词分词不匹配这些特性揭示了在英语基准中被掩盖的推理和落地失败。

应用场景

多语言 Text-to-SQL 评估
跨语言推理分析
智能体模型与单步模型对比
土耳其语自然语言到 SQL 系统开发
为其他低资源语言提供方法学模板

局限性

仅专注于土耳其语
数据库模式仍为英语（有意为之）
属于诊断性基准，而非解决方案

结论

BIRDTurk 是首个大规模、执行保真的土耳其语 Text-to-SQL 基准，并已被 EACL 2026 SIGTURK 接收。它证明了强大的英语 Text-to-SQL 性能并不能转化为多语言鲁棒性，并将语言确立为结构化推理中的首要挑战。

搜集汇总

数据集介绍

构建方式

在跨语言文本到SQL转换的研究中，构建高质量的非英语基准数据集对于评估模型在形态丰富语言上的性能至关重要。BIRDTurk作为首个土耳其语版本的BIRD基准，采用了一种受控的翻译流程进行构建。该流程首先通过确定性模式映射将数据库、表和列标识符本地化为土耳其语，确保词汇表的一致性。随后，利用大型语言模型联合翻译自然语言问题和经过模式对齐的证据文本，同时严格保留反引号内标识符的原始形式。最后，通过基于抽象语法树的SQL重写技术，仅替换标识符节点，从而维持查询的逻辑结构和执行语义不变。整个构建过程辅以自动化一致性检查和基于中心极限定理的统计验证，确保了翻译质量在95%置信水平下的可靠性。

使用方法

BIRDTurk数据集为评估和提升土耳其语文本到SQL系统的性能提供了多维度的研究框架。在评估层面，研究者可利用其开发集系统性地测试不同范式，包括基于提示的推理、智能体多阶段推理以及监督微调，并使用执行准确率、有效效率分数和精确匹配等指标进行量化分析。对于模型训练，数据集的训练分割可用于对多语言或指令调优模型进行监督微调，以探索参数更新学习在土耳其语场景下的有效性。在使用时，需注意数据集采用模式本地化策略，即仅翻译模式标识符而不翻译数据库单元值，这简化了执行层面的比较。研究者可以遵循论文中的实验设置，使用相同的提示模板和评估协议，以确保结果的可复现性和跨研究的可比性，从而深入探究语言结构差异与模型预训练数据代表性不足对跨语言泛化性能的综合影响。

背景与挑战

背景概述

BIRDTurk数据集是首个针对土耳其语的文本到SQL（Text-to-SQL）基准数据集，由Roketsan公司人工智能技术部门与中东技术大学计算机工程系的研究团队于2026年共同创建。该数据集基于BIRD基准进行适配，旨在解决自然语言处理领域在形态丰富、资源匮乏语言中语义解析的挑战。其核心研究问题聚焦于探索土耳其语因黏着性形态和主宾谓语序导致的与SQL结构对齐困难，从而评估跨语言文本到SQL系统的鲁棒性。BIRDTurk的推出填补了土耳其语在该领域的空白，为研究语言结构差异对模型性能的影响提供了标准化测试平台，推动了低资源语言语义解析技术的发展。

当前挑战

BIRDTurk数据集面临的挑战主要体现在两个方面：在领域问题层面，文本到SQL任务需将土耳其语自然语言查询转换为可执行的SQL语句，但土耳其语的黏着性形态导致词汇稀疏性高，且主宾谓语序与SQL的主谓宾语序存在结构性错位，这增加了意图识别和槽位对齐的难度，使得模型难以维持跨语言的性能一致性。在构建过程层面，数据集的创建需通过受控翻译流程将英语BIRD基准本地化，同时严格保持SQL查询和数据库的逻辑结构与执行语义；翻译质量验证依赖基于中心极限定理的统计框架，以确保大规模数据下的可靠性，但翻译过程可能引入系统性风格偏差，且无法完全覆盖土耳其语特有的语言现象如省略和语用推理。

常用场景

经典使用场景

在跨语言语义解析领域，BIRDTurk数据集为评估文本到SQL系统在形态丰富、低资源语言上的性能提供了经典测试平台。该数据集通过严谨的翻译流程，将BIRD基准中的自然语言问题与数据库模式标识符本地化为土耳其语，同时严格保持原始SQL查询的逻辑结构与执行语义，从而构建了一个功能对等的跨语言评估环境。研究人员利用BIRDTurk系统性地比较了推理提示、智能体多阶段推理以及监督微调等多种方法在土耳其语场景下的表现，揭示了语言结构差异与预训练数据代表性不足对模型性能的共同影响。

解决学术问题

BIRDTurk主要解决了文本到SQL研究中长期存在的英语中心主义问题，为低资源语言场景下的语义解析提供了关键评估资源。该数据集使得研究者能够量化评估土耳其语因其黏着性形态和主宾谓语序所带来的独特挑战，例如词序错位和逻辑信息在词缀间的分布式表达如何影响意图识别与槽位对齐。通过提供执行行为严格对等的跨语言基准，BIRDTurk使得学术界能够分离并研究语言结构差异本身对模型性能的影响，而非评估不一致性带来的干扰，从而推动针对形态丰富语言的鲁棒语义解析模型的发展。

实际应用

在实际应用层面，BIRDTurk为开发面向土耳其语用户的自然语言数据库接口提供了重要的训练与评估数据。在企业环境中，非技术背景的土耳其语用户可以通过此类系统，使用日常语言直接查询包含大量、噪声数据的复杂关系型数据库，从而 democratize 数据访问。该数据集所继承的BIRD基准的“脏数据”特性，如需要外部知识进行数值计算和领域术语推理，模拟了真实企业数据库环境的复杂性。因此，基于BIRDTurk开发的模型能够更好地处理土耳其语商业智能查询、数据报表自动生成等实际任务，提升数据驱动决策的效率与普及度。

数据集最近研究