nala-cub/americas_nli
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nala-cub/americas_nli
下载链接
链接失效反馈官方服务:
资源简介:
AmericasNLI是XNLI(Conneau等,2018)的扩展,涵盖了15种高资源语言的自然语言推理(NLI)数据集,扩展到10种美洲的低资源土著语言:Ashaninka、Aymara、Bribri、Guarani、Nahuatl、Otomi、Quechua、Raramuri、Shipibo-Konibo和Wixarika。与MNLI一样,目标是预测文本蕴含(句子A是否蕴含/矛盾/既不蕴含也不矛盾句子B),这是一个分类任务(给定两个句子,预测三个标签之一)。
AmericasNLI is an extension of XNLI (Conneau et al., 2018), a natural language inference (NLI) dataset covering 15 high-resource languages, and it has been expanded to include 10 low-resource indigenous languages of the Americas: Ashaninka, Aymara, Bribri, Guarani, Nahuatl, Otomi, Quechua, Raramuri, Shipibo-Konibo, and Wixarika. Similar to MNLI, its objective is to predict textual entailment (whether sentence A entails, contradicts, or is neutral toward sentence B), which is a classification task that predicts one of three labels given two sentences.
提供机构:
nala-cub
原始信息汇总
数据集概述
名称: AmericasNLI
描述: AmericasNLI是一个自然语言推理(NLI)数据集,涵盖了10种美洲原住民低资源语言。该数据集是XNLI的一个扩展,旨在预测文本蕴含关系(句子A是否暗示/矛盾/无关句子B),是一个分类任务。
语言:
- Aymara (ay)
- Bribri (bzd)
- Ashaninka (cni)
- Guarani (gn)
- Hñähñu (hch)
- Nahuatl (nah)
- Otomi (oto)
- Quechua (qu)
- Shipibo-Konibo (shp)
- Raramuri (tar)
许可: CC-BY-SA-4.0
多语言性: 多语言,包括翻译
任务: 文本分类 - 自然语言推理
数据集结构
数据实例
- all_languages: 包含语言标识符、前提、假设和标签(蕴含、中立、矛盾)。
- 单语言配置: 每个语言配置包含前提、假设和标签。
数据字段
- 语言: 字符串,标识数据实例的语言。
- 前提: 字符串,描述一个情况或声明。
- 假设: 字符串,描述可能的结论或结果。
- 标签: 分类标签,值为0(蕴含)、1(中立)、2(矛盾)。
数据分割
| 语言 | 开发集 | 测试集 |
|---|---|---|
| all_languages | 6457 | 7486 |
| Aymara | 743 | 750 |
| Ashaninka | 658 | 750 |
| Bribri | 743 | 750 |
| Guarani | 743 | 750 |
| Nahuatl | 376 | 738 |
| Otomi | 222 | 748 |
| Quechua | 743 | 750 |
| Raramuri | 743 | 750 |
| Shipibo-Konibo | 743 | 750 |
| Wixarika | 743 | 750 |
数据集创建
- 来源数据: 从西班牙语版本的XNLI翻译而来。
- 注释过程: 由专家进行翻译,选择相对容易翻译的句子类型。
许可信息
- 许可证: Creative Commons Attribution Share Alike 4.0 International



