XNLIvar

Name: XNLIvar
Creator: HiTZ zentroa
Published: 2025-06-16 20:57:56
License: 暂无描述

Hugging Face2025-06-16 更新2025-06-17 收录

下载链接：

https://huggingface.co/datasets/HiTZ/XNLIvar

下载链接

链接失效反馈

官方服务：

资源简介：

XNLIvar是一个包含巴斯克语和西班牙语及其地理变体的自然语言推理（NLI）的手动策划数据集，用于评估NLI在处理语言变体时的性能。

提供机构：

HiTZ zentroa

创建时间：

2025-06-16

原始信息汇总

XNLIvar数据集概述

基本信息

许可证: CC-BY-NC-4.0
语言: 西班牙语(es)、巴斯克语(eu)
标签: Variation
数据集名称: xnli_var

数据集结构

配置(configs)

eu配置
- 文件:
  - original: eu/xnli-eu-original.tsv
  - native: eu/xnli-eu-native.tsv
  - variation: eu/xnli-eu-var.tsv
es配置
- 文件:
  - original: es/xnli-es-original.tsv
  - native: es/xnli-eu2es-native.tsv
  - variation: es/xnli-es-var.tsv
other_ablation配置
- 文件:
  - Basque_no_repetition: ablation-eu/xnli-native-var-eu-NO-REPETITION.tsv
  - Basque_less_western: ablation-eu/xnli-native-var-eu-less-biz.tsv
  - Basque_less_central: ablation-eu/xnli-native-var-eu-less-gip.tsv
  - Spanish_no_repetition: ablation-es/xnli-native-var-es-no-rep.tsv
translations配置
- 文件:
  - translations_Basque_native: translations/xnli-eu2en-native.tsv
  - translations_Basque_variation: translations/xnli-eu2en-var.tsv
  - translation_Spanish_native: translations/xnli-es2en-native.tsv
  - translation_Spanish_variation: translations/xnli-es2en-var.tsv

数据集描述

XNLIvar是一个包含巴斯克语和西班牙语地理变体的手动整理的自然语言推理(NLI)数据集
用于评估当前语言技术对巴斯克语和西班牙语变体的理解能力
包含原始XNLI测试数据、本地化数据和变体包容性数据

数据目录

eu: 包含原始XNLI测试数据、本地和变体包容性数据集
es: 包含原始XNLI测试数据、巴斯克本地数据翻译成西班牙语版本和变体包容性数据
Translations: 包含本地和变体包容性数据集的自动英语翻译
ablation-eu: 巴斯克语消融实验使用的数据集
ablation-es: 西班牙语消融实验使用的数据集

引用信息

bibtex @inproceedings{bengoetxea-et-al-2025,, title = "Lost in Variation? Evaluating NLI Performance in Basque and Spanish Geographical Variants", author = "Bengoetxea, Jaione and Gonzalez-Dios, Itziar and Agerri, Rodrigo", year = "2025", url = "" }

搜集汇总

数据集介绍

构建方式

XNLIvar数据集的构建基于对巴斯克语和西班牙语地理变体的深入研究，采用人工精心筛选的方法，确保数据的高质量和代表性。数据集包含原始XNLI测试数据、本地化变体数据以及变体包容性数据，通过平行语料库的形式呈现。构建过程中特别关注了语言变体的多样性和复杂性，包括巴斯克语的西部和中部变体，以及西班牙语的不同方言。此外，还通过消融实验和自动翻译技术生成了相应的英文版本，以支持跨语言研究。

特点

XNLIvar数据集以其对巴斯克语和西班牙语地理变体的全面覆盖而著称，为自然语言推理任务提供了丰富的语言多样性资源。数据集不仅包含原始测试数据，还提供了本地化和变体包容性的数据，能够有效评估语言模型在处理不同语言变体时的性能。特别值得注意的是，数据集中还包含了消融实验数据，用于分析特定变体对模型性能的影响。此外，自动翻译的英文版本为跨语言比较研究提供了便利。

使用方法

XNLIvar数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究人员可以通过加载不同的配置文件来访问巴斯克语或西班牙语的数据，包括原始数据、本地化数据和变体包容性数据。数据集还提供了消融实验数据，可用于分析特定语言变体对模型性能的影响。对于跨语言研究，自动翻译的英文版本可直接用于对比分析。数据集的TSV格式设计使得数据加载和处理变得简单高效，支持各类机器学习框架的直接使用。

背景与挑战

背景概述

XNLIvar数据集由HiTZ研究团队于2025年创建，旨在评估自然语言推理（NLI）技术在巴斯克语和西班牙语地理变体中的理解能力。该数据集基于跨语言自然语言推理任务，通过手工构建的平行语料库，系统性地纳入了两种语言的方言变体。研究团队通过编码器-解码器架构的大语言模型实验，揭示了语言技术在处理方言变异时存在的性能下降现象，尤其以巴斯克语更为显著。这一成果为低资源语言变体的NLI研究提供了重要基准，推动了语言技术对语言多样性的适应性研究。

当前挑战

该数据集主要应对语言技术在处理方言变异时的性能挑战，具体表现为：模型在巴斯克语变体上的准确率显著低于标准变体，且错误分析表明词汇重叠并非主要原因，凸显了语言变异本身带来的理解障碍。在构建过程中，研究团队面临手工标注方言变体语料的高成本挑战，需平衡不同地理变体的覆盖广度与标注一致性；同时，巴斯克语作为黏着语的复杂形态特征，以及西班牙语跨地区变体的微妙语义差异，均为数据质量控制带来严峻考验。此外，自动翻译生成的英语对照语料需解决低资源语言机器翻译的可靠性问题。

常用场景

经典使用场景

在自然语言处理领域，XNLIvar数据集为研究语言变体对模型性能的影响提供了重要基准。该数据集通过包含巴斯克语和西班牙语的地理变体，特别适用于评估跨语言自然语言推理（NLI）任务的鲁棒性。研究者可利用其原生和变体数据分割，系统分析语言模型在处理方言差异时的表现差异，尤其关注词汇和句法层面的变异特征。

衍生相关工作

该数据集已催生多项关于语言变异建模的创新研究。基于其构建的跨语言对比框架被应用于评估GPT系列模型的语言适应能力，相关成果发表在计算语言学顶会。其 ablation 实验设计启发了针对加泰罗尼亚语等少数语言的变体分析工作，形成了欧洲语言技术联盟的标准评估协议。

数据集最近研究