nala-cub/americas_nli

Name: nala-cub/americas_nli
Creator: nala-cub
Published: 2024-01-23 09:18:27
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nala-cub/americas_nli

下载链接

链接失效反馈

官方服务：

资源简介：

AmericasNLI是XNLI（Conneau等，2018）的扩展，涵盖了15种高资源语言的自然语言推理（NLI）数据集，扩展到10种美洲的低资源土著语言：Ashaninka、Aymara、Bribri、Guarani、Nahuatl、Otomi、Quechua、Raramuri、Shipibo-Konibo和Wixarika。与MNLI一样，目标是预测文本蕴含（句子A是否蕴含/矛盾/既不蕴含也不矛盾句子B），这是一个分类任务（给定两个句子，预测三个标签之一）。

AmericasNLI is an extension of XNLI (Conneau et al., 2018), a natural language inference (NLI) dataset covering 15 high-resource languages, and it has been expanded to include 10 low-resource indigenous languages of the Americas: Ashaninka, Aymara, Bribri, Guarani, Nahuatl, Otomi, Quechua, Raramuri, Shipibo-Konibo, and Wixarika. Similar to MNLI, its objective is to predict textual entailment (whether sentence A entails, contradicts, or is neutral toward sentence B), which is a classification task that predicts one of three labels given two sentences.

提供机构：

nala-cub

原始信息汇总

数据集概述

名称: AmericasNLI

描述: AmericasNLI是一个自然语言推理（NLI）数据集，涵盖了10种美洲原住民低资源语言。该数据集是XNLI的一个扩展，旨在预测文本蕴含关系（句子A是否暗示/矛盾/无关句子B），是一个分类任务。

语言:

Aymara (ay)
Bribri (bzd)
Ashaninka (cni)
Guarani (gn)
Hñähñu (hch)
Nahuatl (nah)
Otomi (oto)
Quechua (qu)
Shipibo-Konibo (shp)
Raramuri (tar)

许可: CC-BY-SA-4.0

多语言性: 多语言，包括翻译

任务: 文本分类 - 自然语言推理

数据集结构

数据实例

all_languages: 包含语言标识符、前提、假设和标签（蕴含、中立、矛盾）。
单语言配置: 每个语言配置包含前提、假设和标签。

数据字段

语言: 字符串，标识数据实例的语言。
前提: 字符串，描述一个情况或声明。
假设: 字符串，描述可能的结论或结果。
标签: 分类标签，值为0（蕴含）、1（中立）、2（矛盾）。

数据分割

语言	开发集	测试集
all_languages	6457	7486
Aymara	743	750
Ashaninka	658	750
Bribri	743	750
Guarani	743	750
Nahuatl	376	738
Otomi	222	748
Quechua	743	750
Raramuri	743	750
Shipibo-Konibo	743	750
Wixarika	743	750

数据集创建

来源数据: 从西班牙语版本的XNLI翻译而来。
注释过程: 由专家进行翻译，选择相对容易翻译的句子类型。

许可信息

许可证: Creative Commons Attribution Share Alike 4.0 International

5,000+

优质数据集

54 个

任务类型

进入经典数据集