multiblimp
收藏Hugging Face2025-04-07 更新2025-04-08 收录
下载链接:
https://huggingface.co/datasets/jumelet/multiblimp
下载链接
链接失效反馈官方服务:
资源简介:
MultiBLiMP是一个大规模多语言语言最小对benchmark,用于评估语言模型。它包含多种语言的数据,每种语言的数据都存储在一个.tsv文件中,包含多个属性,用于描述语言对的特征。
创建时间:
2025-04-03
原始信息汇总
MultiBLiMP 数据集概述
数据集基本信息
- 名称: MultiBLiMP
- 类型: 多语言语言学最小对基准
- 许可证: CC-BY-4.0
- 多语言支持: 是
- 数据规模: 100K < n < 1M
数据集特征
- 主要字段:
sen: 句子wrong_sen: 错误句子verb: 动词verb_idx: 动词索引cop: 系动词cop_idx: 系动词索引child: 子项child_idx: 子项索引child_features: 子项特征child_upos: 子项UPOS标签head: 头项head_idx: 头项索引head_features: 头项特征head_upos: 头项UPOS标签distance: 距离attractors: 吸引子metadata: 元数据swap_head: 交换头项feature_vals: 特征值prefix: 前缀congruent_attractors: 一致吸引子incongruent_attractors: 不一致吸引子num_attractors: 吸引子数量num_congruent_attractors: 一致吸引子数量num_incongruent_attractors: 不一致吸引子数量has_attractors: 是否有吸引子only_has_congruent_attractors: 是否只有一致吸引子only_has_incongruent_attractors: 是否只有不一致吸引子sample_weight: 样本权重phenomenon: 现象lang: 语言grammatical_feature: 语法特征ungrammatical_feature: 非语法特征wo: WOinflect_item: 屈折项agreement_certainty: 一致性确定性
语言支持
数据集支持以下语言(部分):
- bua, es, sa, ro, cy, koi, ga, fi, xcl, sq, sl, gu, vep, hyw, hy, et, tr, aqz, kxh, mdf, myv, gd, ru, fa, sk, frm, bg, orv, el, cs, xpg, de, nl, nhi, grc, fo, lt, apu, hi, he, wo, kk, ug, fro, pt, yrl, se, got, kpv, egy, bho, krl, ur, hbo, ka, cu, fr, mk, quc, ab, uk, urb, xnr, pcm, sah, bn, ky, olo, it, sms, is, lij, kmr, hu, ota, azz, mr, gl, da, bor, la, hit, arb, hbs, sv, am, tpn, be, aln, ta, hsb, en, wbp, ttc, pl, lv, uz, ca, eu, nds, br
数据配置
数据集按语言分列,每种语言对应一个.tsv文件,例如:
- abk/data.tsv
- aln/data.tsv
- amh/data.tsv
- ...(其他语言配置类似)
引用信息
bibtex @misc{jumelet2025multiblimp10massivelymultilingual, title={MultiBLiMP 1.0: A Massively Multilingual Benchmark of Linguistic Minimal Pairs}, author={Jaap Jumelet and Leonie Weissweiler and Arianna Bisazza}, year={2025}, eprint={2504.02768}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.02768}, }
相关资源
- 论文地址: https://arxiv.org/abs/2504.02768
搜集汇总
数据集介绍

构建方式
MultiBLiMP数据集作为语言学最小对比对的大规模多语言基准,其构建过程体现了跨语言语法现象的系统性探索。研究团队采用分语言策略,为每种语言生成独立的TSV文件,通过精细标注句子对中的动词、依存关系、语法特征等42个语言学属性,构建了覆盖从古典语言到现代方言的91种语言变体。数据采集过程严格遵循最小对比对原则,确保每对句子仅在关键语法特征上存在差异,为跨语言语法可接受性研究提供了标准化实验材料。
特点
该数据集最显著的特征在于其前所未有的多语言覆盖广度与深度,囊括了印欧语系、乌拉尔语系、闪含语系等主要语族的代表性语言。每个样本包含原始句(sen)和错误句(wrong_sen)的精确对比,配合详尽的语法标注如动词形态(verb)、依存距离(distance)、吸引子类型(attractors)等特征,使数据集兼具语法诊断工具和跨语言分析平台的双重价值。特别设计的布尔型标记(如has_attractors)支持快速筛选特定语法现象样本。
使用方法
使用该数据集时,研究者可通过HuggingFace平台按语言代码直接加载特定语种的TSV文件进行针对性分析。核心应用场景包括:通过对比sen与wrong_sen字段评估语言模型的语法敏感性,利用congruent_attractors等特征研究干扰效应,或基于phenomenon字段进行特定语法现象的跨语言比较。数据集的样本权重(sample_weight)字段为不平衡语言数据的研究提供了标准化处理方案,而metadata字段则保留了原始语言学实验的完整上下文信息。
背景与挑战
背景概述
MultiBLiMP数据集作为一项大规模多语言基准测试工具,由Jaap Jumelet、Leonie Weissweiler和Arianna Bisazza等学者于2025年提出,旨在通过语言学最小对立对评估语言模型的性能。该数据集涵盖超过100种语言,包括从印欧语系到孤立语言的广泛语种,为跨语言语法现象研究提供了标准化测试平台。其核心研究问题聚焦于语言模型对语法结构的敏感性检测,特别是主谓一致、格标记等形态句法特征的建模能力,对计算语言学领域的多语言模型评估体系具有重要推动作用。
当前挑战
构建MultiBLiMP面临双重挑战:在领域问题层面,需解决不同语言间语法体系差异性导致的评估标准统一难题,例如黏着语与屈折语的形态标记系统存在本质差异;在技术实现层面,数据收集涉及百余种低资源语言的专家标注,如何保证标注质量与跨语言可比性成为关键瓶颈。此外,最小对立对设计需精确控制单一语法变量,这对罕见语言现象的覆盖率提出了极高要求。
常用场景
经典使用场景
MultiBLiMP数据集作为多语言语言学最小对比对的基准,广泛应用于自然语言处理领域中的语法性判断任务。其核心价值在于通过成对的正确句子(sen)与错误句子(wrong_sen),为研究者提供了检验语言模型对语法结构敏感性的标准化工具。尤其在跨语言模型评估中,该数据集能够系统性地揭示模型在不同语系(如印欧语系、乌拉尔语系等)中的语法理解偏差。
解决学术问题
该数据集有效解决了语言学理论验证与计算模型评估之间的鸿沟问题。通过覆盖100余种语言的语法最小对比对,研究者可量化分析语言模型在性、数、格等语法范畴上的表现,尤其对长距离依存关系、一致性问题等复杂语言现象的建模提供了细粒度评估框架。其多语言特性进一步推动了语言普遍性假设的实证研究,为类型学比较提供了数据支撑。
衍生相关工作
基于MultiBLiMP的经典研究包括跨语言语法敏感度分析框架SyntaxGym的扩展,以及多语言BERT的语法能力评估体系。哈佛大学团队开发的Linguistic Probe Kit将其作为核心基准,麻省理工学院则利用该数据集发现了Transformer模型在格标记语言中的系统性偏差。这些工作显著推进了语法可解释性研究的发展。
以上内容由遇见数据集搜集并总结生成



