five

HiTZ/xnli-eu

收藏
Hugging Face2026-03-30 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/xnli-eu
下载链接
链接失效反馈
官方服务:
资源简介:
XNLIeu是XNLI数据集的扩展,专门为巴斯克语(Basque)设计,用于自然语言推理任务。该数据集通过将英文XNLI语料库机器翻译成巴斯克语,并经过人工后编辑步骤开发而成。数据集包含三个子集:eu(机器翻译并经过人工后编辑)、eu_mt(仅机器翻译)、eu_native(原始非翻译测试集)。每个子集包含premise、hypothesis和label三个字段,分别表示前提、假设和标签。数据集可用于跨语言评估,特别是与XNLI的训练集结合使用。
提供机构:
HiTZ
原始信息汇总

数据集卡片 for XNLIeu

数据集详情

数据集描述

XNLIeu 是 XNLI 的扩展,从英语翻译到 巴斯克语。它被设计为一个跨语言的自然语言推理任务数据集,属于文本分类任务,包括对句子对(前提和假设)进行分类,根据其语义关系分为三种可能的标签:蕴含、中性和矛盾。

  • 语言(NLP): 巴斯克语 (eu)
  • 许可证: XNLIeu 源自 XNLI,并沿用其许可证。

数据集结构

数据集包含三个子集:

  • eu: XNLIeu,从英语机器翻译并经过人工编辑的巴斯克语版本。
  • eu_MT: XNLIeu<sub>MT</sub>,未经人工编辑的机器翻译版本。
  • eu_native: 原始的非翻译测试集。

分割

名称 训练 验证 测试
eu 392702 2490 5010
eu_mt 392702 2490 5010
eu_native - - 621

数据集字段

所有分割都包含相同的字段:premisehypothesislabel

  • premise: 字符串变量。
  • hypothesis: 字符串变量。
  • label: 分类标签,可能的值包括蕴含 (0)、中性 (1)、矛盾 (2)。

数据集实例

"eu" 分割的一个示例:

json { "premise": "Dena idazten saiatu nintzen", "hypothesis": "Nire helburua gauzak idaztea zen.", "label": 0, }

偏差、风险和限制

该数据集的偏差已在论文中进行了研究和报告。

引用

BibTeX: bibtex @article{heredia2024xnlieu, title={XNLIeu: a dataset for cross-lingual NLI in Basque}, author={Maite Heredia and Julen Etxaniz and Muitze Zulaika and Xabier Saralegi and Jeremy Barnes and Aitor Soroa}, year={2024}, eprint={2404.06996}, archivePrefix={arXiv}, primaryClass={cs.CL} }

APA:

Maite Heredia, Julen Etxaniz, Muitze Zulaika, Xabier Saralegi, Jeremy Barnes, & Aitor Soroa (2024). XNLIeu: a dataset for cross-lingual NLI in Basque.

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作