five

mteb/xnli2.0-multi-pair

收藏
Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/xnli2.0-multi-pair
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是XNLI 2.0的多语言版本,包含了13种语言的子集,这些语言包括阿萨姆语、孟加拉语、博杰普尔语、希腊语、古吉拉特语、卡纳达语、马拉地语、奥里亚语、旁遮普语、俄语、梵语、泰米尔语和土耳其语。每个语言配置都包含前提、假设和标签三个特征,并且每个配置都只有一个测试集,包含5010个样本。

该数据集是XNLI 2.0的多语言版本,包含了13种语言的子集,这些语言包括阿萨姆语、孟加拉语、博杰普尔语、希腊语、古吉拉特语、卡纳达语、马拉地语、奥里亚语、旁遮普语、俄语、梵语、泰米尔语和土耳其语。每个语言配置都包含前提、假设和标签三个特征,并且每个配置都只有一个测试集,包含5010个样本。
提供机构:
mteb
原始信息汇总

数据集概述

本数据集包含多个语言版本的测试数据,每个语言版本包含以下特征:

  • premise:字符串类型
  • hypothesis:字符串类型
  • label:整数类型

每个语言版本的测试集包含5010个样本,具体信息如下:

语言 测试集字节数 下载大小 数据集大小
assamese 2120678 488702 2120678
bengali 2126518 473697 2126518
bhojpuri 2062456 465141 2062456
greek 1682444 473027 1682444
gujrati 2063773 479051 2063773
kannada 2334078 507388 2334078
marathi 2127737 482693 2127737
odiya 2142855 484444 2142855
punjabi 2114643 476099 2114643
russian 1569423 450318 1569423
sanskrit 2251091 500958 2251091
tamil 2539466 524941 2539466
turkish 924550 324802 924550

数据集遵循CC-BY-4.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作