HiTZ/xnli-eu
收藏数据集卡片 for XNLIeu
数据集详情
数据集描述
XNLIeu 是 XNLI 的扩展,从英语翻译到 巴斯克语。它被设计为一个跨语言的自然语言推理任务数据集,属于文本分类任务,包括对句子对(前提和假设)进行分类,根据其语义关系分为三种可能的标签:蕴含、中性和矛盾。
- 语言(NLP): 巴斯克语 (eu)
- 许可证: XNLIeu 源自 XNLI,并沿用其许可证。
数据集结构
数据集包含三个子集:
- eu: XNLIeu,从英语机器翻译并经过人工编辑的巴斯克语版本。
- eu_MT: XNLIeu<sub>MT</sub>,未经人工编辑的机器翻译版本。
- eu_native: 原始的非翻译测试集。
分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| eu | 392702 | 2490 | 5010 |
| eu_mt | 392702 | 2490 | 5010 |
| eu_native | - | - | 621 |
数据集字段
所有分割都包含相同的字段:premise、hypothesis 和 label。
- premise: 字符串变量。
- hypothesis: 字符串变量。
- label: 分类标签,可能的值包括蕴含 (0)、中性 (1)、矛盾 (2)。
数据集实例
"eu" 分割的一个示例:
json { "premise": "Dena idazten saiatu nintzen", "hypothesis": "Nire helburua gauzak idaztea zen.", "label": 0, }
偏差、风险和限制
该数据集的偏差已在论文中进行了研究和报告。
引用
BibTeX: bibtex @article{heredia2024xnlieu, title={XNLIeu: a dataset for cross-lingual NLI in Basque}, author={Maite Heredia and Julen Etxaniz and Muitze Zulaika and Xabier Saralegi and Jeremy Barnes and Aitor Soroa}, year={2024}, eprint={2404.06996}, archivePrefix={arXiv}, primaryClass={cs.CL} }
APA:
Maite Heredia, Julen Etxaniz, Muitze Zulaika, Xabier Saralegi, Jeremy Barnes, & Aitor Soroa (2024). XNLIeu: a dataset for cross-lingual NLI in Basque.



