mteb/xnli2.0-multi-pair
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/xnli2.0-multi-pair
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是XNLI 2.0的多语言版本,包含了13种语言的子集,这些语言包括阿萨姆语、孟加拉语、博杰普尔语、希腊语、古吉拉特语、卡纳达语、马拉地语、奥里亚语、旁遮普语、俄语、梵语、泰米尔语和土耳其语。每个语言配置都包含前提、假设和标签三个特征,并且每个配置都只有一个测试集,包含5010个样本。
该数据集是XNLI 2.0的多语言版本,包含了13种语言的子集,这些语言包括阿萨姆语、孟加拉语、博杰普尔语、希腊语、古吉拉特语、卡纳达语、马拉地语、奥里亚语、旁遮普语、俄语、梵语、泰米尔语和土耳其语。每个语言配置都包含前提、假设和标签三个特征,并且每个配置都只有一个测试集,包含5010个样本。
提供机构:
mteb
原始信息汇总
数据集概述
本数据集包含多个语言版本的测试数据,每个语言版本包含以下特征:
- premise:字符串类型
- hypothesis:字符串类型
- label:整数类型
每个语言版本的测试集包含5010个样本,具体信息如下:
| 语言 | 测试集字节数 | 下载大小 | 数据集大小 |
|---|---|---|---|
| assamese | 2120678 | 488702 | 2120678 |
| bengali | 2126518 | 473697 | 2126518 |
| bhojpuri | 2062456 | 465141 | 2062456 |
| greek | 1682444 | 473027 | 1682444 |
| gujrati | 2063773 | 479051 | 2063773 |
| kannada | 2334078 | 507388 | 2334078 |
| marathi | 2127737 | 482693 | 2127737 |
| odiya | 2142855 | 484444 | 2142855 |
| punjabi | 2114643 | 476099 | 2114643 |
| russian | 1569423 | 450318 | 1569423 |
| sanskrit | 2251091 | 500958 | 2251091 |
| tamil | 2539466 | 524941 | 2539466 |
| turkish | 924550 | 324802 | 924550 |
数据集遵循CC-BY-4.0许可证。



