five

nala-cub/americas_nli

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nala-cub/americas_nli
下载链接
链接失效反馈
官方服务:
资源简介:
AmericasNLI是XNLI(Conneau等,2018)的扩展,涵盖了15种高资源语言的自然语言推理(NLI)数据集,扩展到10种美洲的低资源土著语言:Ashaninka、Aymara、Bribri、Guarani、Nahuatl、Otomi、Quechua、Raramuri、Shipibo-Konibo和Wixarika。与MNLI一样,目标是预测文本蕴含(句子A是否蕴含/矛盾/既不蕴含也不矛盾句子B),这是一个分类任务(给定两个句子,预测三个标签之一)。

AmericasNLI is an extension of XNLI (Conneau et al., 2018), a natural language inference (NLI) dataset covering 15 high-resource languages, and it has been expanded to include 10 low-resource indigenous languages of the Americas: Ashaninka, Aymara, Bribri, Guarani, Nahuatl, Otomi, Quechua, Raramuri, Shipibo-Konibo, and Wixarika. Similar to MNLI, its objective is to predict textual entailment (whether sentence A entails, contradicts, or is neutral toward sentence B), which is a classification task that predicts one of three labels given two sentences.
提供机构:
nala-cub
原始信息汇总

数据集概述

名称: AmericasNLI

描述: AmericasNLI是一个自然语言推理(NLI)数据集,涵盖了10种美洲原住民低资源语言。该数据集是XNLI的一个扩展,旨在预测文本蕴含关系(句子A是否暗示/矛盾/无关句子B),是一个分类任务。

语言:

  • Aymara (ay)
  • Bribri (bzd)
  • Ashaninka (cni)
  • Guarani (gn)
  • Hñähñu (hch)
  • Nahuatl (nah)
  • Otomi (oto)
  • Quechua (qu)
  • Shipibo-Konibo (shp)
  • Raramuri (tar)

许可: CC-BY-SA-4.0

多语言性: 多语言,包括翻译

任务: 文本分类 - 自然语言推理

数据集结构

数据实例

  • all_languages: 包含语言标识符、前提、假设和标签(蕴含、中立、矛盾)。
  • 单语言配置: 每个语言配置包含前提、假设和标签。

数据字段

  • 语言: 字符串,标识数据实例的语言。
  • 前提: 字符串,描述一个情况或声明。
  • 假设: 字符串,描述可能的结论或结果。
  • 标签: 分类标签,值为0(蕴含)、1(中立)、2(矛盾)。

数据分割

语言 开发集 测试集
all_languages 6457 7486
Aymara 743 750
Ashaninka 658 750
Bribri 743 750
Guarani 743 750
Nahuatl 376 738
Otomi 222 748
Quechua 743 750
Raramuri 743 750
Shipibo-Konibo 743 750
Wixarika 743 750

数据集创建

  • 来源数据: 从西班牙语版本的XNLI翻译而来。
  • 注释过程: 由专家进行翻译,选择相对容易翻译的句子类型。

许可信息

  • 许可证: Creative Commons Attribution Share Alike 4.0 International
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作