GlobalNLI
收藏Hugging Face2025-07-27 更新2025-07-28 收录
下载链接:
https://huggingface.co/datasets/McGill-NLP/GlobalNLI
下载链接
链接失效反馈官方服务:
资源简介:
Global NLI是一个多语言的自然语言推理数据集,它聚合了多个公开的NLI数据集,支持包括英语在内的59种语言。每个语言的数据集包含验证集和测试集,数据实例包括前提、假设和标签三个字段。标签用于分类推理结果,分为蕴涵、中性和矛盾三种类型。
提供机构:
McGill NLP Group
创建时间:
2025-07-27
原始信息汇总
GlobalNLI 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 任务类别: 文本分类
- 任务ID: 自然语言推理(Natural Language Inference)
- 数据集名称: globalnli
- 标签: global_nli, globalnli
- 联系人: david.adelani@mila.quebec
数据集摘要
GlobalNLI 是一个基于公开可用的自然语言推理(NLI)数据集聚合而成的新文本基准数据集。
语言支持
- 支持语言: 59种语言
- 语言列表:
- 阿姆哈拉语 (amh)
- 阿拉伯语 (ara)
- 阿萨姆语 (asm)
- 艾马拉语 (aym)
- 孟加拉语 (ben)
- 保加利亚语 (bul)
- 布里布里语 (bzd)
- 加泰罗尼亚语 (cat)
- 阿沙宁卡语 (cni)
- 德语 (deu)
- 希腊语 (ell)
- 英语 (eng)
- 埃维语 (ewe)
- 法语 (fra)
- 瓜拉尼语 (grn)
- 古吉拉特语 (guj)
- 豪萨语 (hau)
- 维查里卡语 (hch)
- 印地语 (hin)
- 伊博语 (ibo)
- 印尼语 (ind)
- 日语 (jpn)
- 卡纳达语 (kan)
- 卢旺达语 (kin)
- 韩语 (kor)
- 林加拉语 (lin)
- 卢干达语 (lug)
- 马拉雅拉姆语 (mal)
- 马拉地语 (mar)
- 缅甸语 (mya)
- 纳瓦特尔语 (nah)
- 奥里亚语 (ori)
- 奥罗莫语 (orm)
- 奥托米语 (oto)
- 旁遮普语 (pan)
- 牙买加克里奥尔语 (pat)
- 波兰语 (pol)
- 葡萄牙语 (por)
- 克丘亚语 (quy)
- 罗马尼亚语 (ron)
- 俄语 (rus)
- 希皮博-科尼博语 (shp)
- 绍纳语 (sna)
- 塞索托语 (sot)
- 西班牙语 (spa)
- 斯瓦希里语 (swa)
- 泰米尔语 (tam)
- 拉拉穆里语 (tar)
- 泰卢固语 (tel)
- 泰语 (tha)
- 土耳其语 (tur)
- 契维语 (twi)
- 乌尔都语 (urd)
- 越南语 (vie)
- 沃洛夫语 (wol)
- 科萨语 (xho)
- 约鲁巴语 (yor)
- 中文 (zho)
- 祖鲁语 (zul)
数据集结构
数据实例
- 示例: python { premise: The doors were locked when we went in., hypothesis: All of the doors were open., label: 0 }
数据字段
- premise: 多语言字符串变量
- hypothesis: 多语言字符串变量
- label: 分类标签,可能值包括蕴含 (0)、中立 (1)、矛盾 (2)
数据分割
- 分割类型: 开发集 (dev) 和测试集 (test)
- 分割大小示例:
- 英语 (eng): 开发集 30 条,测试集 600 条
来源数据集
XNLI, AfriXNLI, IndicXNLI, AmericasNLI [30], XNLI-ca, myXNLI, IndoNLI, JNLI, InferBR, sick_pl, JamPatoisNLI, KLUE, RoNLI.
搜集汇总
数据集介绍

构建方式
GlobalNLI数据集通过系统整合多个公开的自然语言推理基准构建而成,涵盖XNLI、AfriXNLI、IndicXNLI等13个源数据集,采用标准化流程对多语言文本进行对齐和标注。该构建方法确保了数据来源的多样性和语言覆盖的广泛性,每种语言均包含验证集和测试集的双重划分,为跨语言NLI研究提供了可靠的基础设施。
特点
该数据集最显著的特征是其前所未有的多语言覆盖能力,包含59种从全球范围精选的语言,既涵盖英语、汉语等主流语言,也包含Aymara、Asháninka等资源稀缺的土著语言。所有样本均包含前提、假设和标签三元组结构,标签体系采用经典的蕴涵、中性和矛盾三分法,为评估模型的多语言推理能力提供了统一框架。
使用方法
研究者可通过HuggingFace数据集库直接加载特定语言子集,使用标准化的语言代码参数即可调用。典型使用场景包括:加载指定语言的开发集进行超参数调优,在测试集上评估模型性能;或通过跨语言对比实验,分析NLI任务的迁移学习特性。数据字段中的premise和hypothesis可直接输入模型,label字段则用于监督学习的目标变量。
背景与挑战
背景概述
GlobalNLI数据集是自然语言处理领域中的一项重要资源,专注于多语言自然语言推理任务。该数据集由McGill-NLP团队创建,整合了包括XNLI、AfriXNLI、IndicXNLI等在内的多个公开NLI数据集,涵盖了59种语言,从广泛使用的英语、中文到资源稀缺的Aymara、Asháninka等语言。其核心研究问题在于探索多语言环境下语义推理的普适性与差异性,为跨语言模型评估提供了标准化基准。该数据集的构建显著推动了低资源语言NLP研究的发展,并为多语言预训练模型的公平性评估奠定了基础。
当前挑战
GlobalNLI面临的挑战主要体现在两个方面:领域问题方面,不同语言间语法结构和逻辑表达的差异性导致模型难以建立统一的推理范式,尤其对黏着语、复综语等特殊语言类型的处理存在显著性能落差;数据构建方面,低资源语言的标注质量参差不齐,部分语言依赖翻译回译过程可能引入语义偏差,且原始数据集的标注标准不统一需要进行复杂的归一化处理。此外,某些濒危语言的方言变体处理也缺乏语言学专家的有效验证。
常用场景
经典使用场景
GlobalNLI数据集作为多语言自然语言推理(NLI)领域的基准测试工具,广泛应用于跨语言语义理解研究。其典型使用场景包括评估预训练语言模型在59种语言上的推理能力,特别是在低资源语言环境下的泛化性能。研究者通过对比模型在不同语言对上的表现,揭示跨语言迁移中的语义对齐规律。
实际应用
在实际应用中,GlobalNLI支撑着多语言智能客服系统的语义匹配模块开发,帮助跨国企业实现非英语用户的意图识别。其非洲语言数据被用于优化手机银行的语音助手,而美洲原住民语言样本则助力文化保护机构的文献数字化项目,显著提升了小语种自然语言处理技术的可用性。
衍生相关工作
基于该数据集衍生的经典工作包括跨语言对抗训练框架XLM-Roberta-Large的优化研究,以及低资源语言知识蒸馏技术mDistil的提出。非洲学者利用其约鲁巴语数据开发的YorubaBERT模型,成为首个在ACL会议上发表的西非语言预训练成果,推动了区域化NLP研究的发展。
以上内容由遇见数据集搜集并总结生成



