TurBLiMP

github2025-06-17 更新2025-06-21 收录

下载链接：

https://github.com/ezgibasar/TurBLiMP

下载链接

链接失效反馈

官方服务：

资源简介：

TurBLiMP是第一个土耳其语的语言最小对基准测试，旨在评估单语和多语语言模型的语言能力。该基准测试涵盖了土耳其语的16种核心语法现象，每种现象包含1000个最小对。此外，它还包含了实验范式，用于检查模型在不同从属策略和词序变化中的表现。

TurBLiMP is the first Turkish-language minimal pair benchmark designed to evaluate the linguistic capabilities of monolingual and multilingual language models. This benchmark covers 16 core grammatical phenomena in Turkish, with 1000 minimal pairs for each phenomenon. In addition, it includes experimental paradigms to examine model performance across different subordination strategies and word order variations.

创建时间：

2025-06-16

原始信息汇总

TurBLiMP数据集概述

数据集简介

TurBLiMP是首个土耳其语语言学最小对比对基准测试集，用于评估单语和多语语言模型的语言能力。该基准覆盖土耳其语16种核心语法现象，每种现象包含1000个最小对比对，并包含针对不同从属策略和词序变化的实验范式。

核心语法现象

回指一致 - 反身代词一致性违反
论元结构(及物) - 及物动词的格标记错误
论元结构(双及物) - 双及物动词的格标记错误
约束理论 - 约束理论B原则违反
限定词 - 不定冠词的强制性使用
省略 - 非平行词序的后向省略
不规则形式 - 错误的不定过去时语素使用
孤岛效应 - 从复杂名词短语中提取wh-附加语
名词化 - 错误的名词化后缀选择
否定极性项许可 - 非否定语境中的否定极性项
被动语态 - 非人称被动中by短语的未许可使用
量词 - 与裸名词的量词使用
关系从句 - 关系从句中错误的格标记
词序变换 - 从嵌入子句中的非法后动词词序变换
主语一致 - 人称/数一致性违反
悬挂词缀 - 不正确的时态词缀悬挂

实验范式

包含20个针对及物和双及物论元结构现象的实验范式：

词序 - SOV、SVO、OSV、OVS、VSO、VOS
从属关系 - 限定、-DIK、-(y)IncA、-(y)ken

人工标注验证

参与者：30名土耳其语母语者
评分标准：7级李克特量表(1:完全不可接受 - 7:完全可接受)
刺激材料：
- 共216个句子
- 覆盖16种语言现象和20种实验范式
- 每个类别6个句子
设计：
- Qualtrics在线调查
- 两个调查版本(可接受性条件反转)
包含数据：
- 所有现象的原始评分
- 调查材料

使用方式

通过Git克隆仓库： bash git clone https://github.com/yourusername/TurBLiMP.git

引用要求

使用本基准时需引用相关论文：

@misc{başar2025turblimpturkishbenchmarklinguistic, title={TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs}, author={Ezgi Başar and Francesca Padovani and Jaap Jumelet and Arianna Bisazza}, year={2025}, eprint={2506.13487}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.13487}, }

许可协议

本作品采用知识共享署名4.0国际许可协议授权

搜集汇总

数据集介绍

构建方式

TurBLiMP作为首个土耳其语语言学最小对比对基准数据集，其构建过程体现了严谨的语言学方法论。研究团队基于土耳其语16种核心语法现象，为每种现象精心设计了1000组最小对比对，通过系统性地操纵句法结构中的关键变量来创建语法正确与错误的句子对。数据验证阶段邀请了30名土耳其语母语者参与7级李克特量表评估，采用双版本问卷设计控制偏差，最终收集了涵盖所有语法现象和20种实验范式的216个句子的可接受性评分。

特点

该数据集最显著的特征在于其全面覆盖土耳其语核心语法体系，包括反身代词一致性、论元结构、约束理论等16类语言现象，并创新性地整合了6种语序变体和4种从属策略的实验范式。每个语法现象配备1000组最小对比对的设计规模，为模型评估提供了充分的统计效力。数据集特别强调语言学理论指导下的结构对比，如通过刻意构造违反约束理论原则B的句子来测试模型的语言理解深度。

使用方法

研究者可通过GitHub仓库直接克隆获取TurBLiMP数据集，其结构化设计便于开展系统的语言模型评估。使用时应关注不同语法现象的分类目录，建议结合原始论文中的实验设计进行跨现象对比分析。对于进阶研究，数据集提供的20种实验范式支持研究者探索语序变化和从属策略对模型性能的影响。引用时需遵循CC BY 4.0许可协议，并按规定格式标注原始文献。

背景与挑战

背景概述

TurBLiMP是首个针对土耳其语的语法最小对基准测试集，由Ezgi Başar、Francesca Padovani、Jaap Jumelet和Arianna Bisazza等研究人员于2025年联合开发。该数据集旨在系统评估单语及多语语言模型对土耳其语核心语法现象的掌握能力，涵盖16类语法现象及20种实验范式，每类现象包含1000组最小对比对。作为土耳其语语言学计算研究的重要基础设施，TurBLiMP填补了非印欧语系语言模型评估工具的空白，为跨语言语法泛化研究提供了标准化测量框架。其创新性地融合了句法学理论中的约束条件与计算语言学评估方法，显著提升了形态复杂语言的可解释性评估维度。

当前挑战

在领域问题层面，TurBLiMP需解决土耳其语复杂形态句法特征的建模挑战，包括黏着语特有的词缀悬置、非对称 scrambling等现象的量化评估。数据构建过程中，研究团队面临三大核心挑战：首先，土耳其语丰富的形态变化导致最小对生成需严格遵循音位和谐律与词缀组合规则；其次，实验范式设计需平衡理论语言学严谨性与计算可行性，特别是在处理嵌套从句结构时；最后，本土化验证要求克服标注一致性难题，30名母语者的可接受性评判需协调方言变体与标准语的差异。这些挑战的解决为其他黏着语基准测试提供了重要技术参照。

常用场景

经典使用场景

在自然语言处理领域，TurBLiMP数据集为评估单语和多语言模型在土耳其语中的语法理解能力提供了标准化测试平台。该数据集通过16种核心语法现象和20种实验范式，系统性地检验模型对土耳其语复杂语法结构的敏感性，特别是在词序变化和从属结构等关键语言学特征上的表现。研究人员利用其精心设计的1000对最小对立句对，能够精确量化不同语言模型在特定语法范畴上的性能差异。

实际应用

在实际应用中，TurBLiMP被广泛用于优化土耳其语教育科技产品的语法检查模块，帮助识别语言学习软件中的系统性错误。机器翻译系统通过该数据集的测试结果，能够针对性改进土耳其语与其它语言间的结构转换准确性。在语音助手开发领域，基于该基准优化的模型显著提升了处理土耳其语复杂句式时的语义理解鲁棒性。

衍生相关工作

该数据集催生了多项重要研究，包括基于语法现象的错误分析框架构建，以及跨语言语法敏感性的比较研究。部分学者扩展其范式开发了针对土耳其语方言变体的评估工具，另有研究将其最小对立方法应用于其他黏着语的模型评估。TurBLiMP启发的新型评估指标，正在重塑多语言模型的语法能力评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集