alexandrainst/m_mmlu
收藏Hugging Face2024-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/m_mmlu
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是[MMLU数据集](https://huggingface.co/datasets/cais/mmlu)的机器翻译版本。冰岛语(is)部分使用了Miðeind的Greynir模型进行翻译,挪威语(nb)部分使用了DeepL进行翻译,其余语言使用了GPT-3.5-turbo进行翻译。这部分数据集最初上传至[这个Github仓库](https://github.com/nlp-uoregon/mlmm-evaluation)。
提供机构:
alexandrainst
原始信息汇总
多语言MMLU数据集
数据集概述
该数据集是MMLU数据集的机器翻译版本。
配置详情
数据集包含以下语言的配置:
- 阿拉伯语 (ar)
- 训练集:
data/ar/train.jsonl - 验证集:
data/ar/val.jsonl - 测试集:
data/ar/test.jsonl
- 训练集:
- 孟加拉语 (bn)
- 训练集:
data/bn/train.jsonl - 验证集:
data/bn/val.jsonl - 测试集:
data/bn/test.jsonl
- 训练集:
- 加泰罗尼亚语 (ca)
- 训练集:
data/ca/train.jsonl - 验证集:
data/ca/val.jsonl - 测试集:
data/ca/test.jsonl
- 训练集:
- 丹麦语 (da)
- 训练集:
data/da/train.jsonl - 验证集:
data/da/val.jsonl - 测试集:
data/da/test.jsonl
- 训练集:
- 德语 (de)
- 训练集:
data/de/train.jsonl - 验证集:
data/de/val.jsonl - 测试集:
data/de/test.jsonl
- 训练集:
- 英语 (en)
- 训练集:
data/en/train.jsonl - 验证集:
data/en/val.jsonl - 测试集:
data/en/test.jsonl
- 训练集:
- 西班牙语 (es)
- 训练集:
data/es/train.jsonl - 验证集:
data/es/val.jsonl - 测试集:
data/es/test.jsonl
- 训练集:
- 巴斯克语 (eu)
- 训练集:
data/eu/train.jsonl - 验证集:
data/eu/val.jsonl - 测试集:
data/eu/test.jsonl
- 训练集:
- 法语 (fr)
- 训练集:
data/fr/train.jsonl - 验证集:
data/fr/val.jsonl - 测试集:
data/fr/test.jsonl
- 训练集:
- 古吉拉特语 (gu)
- 训练集:
data/gu/train.jsonl - 验证集:
data/gu/val.jsonl - 测试集:
data/gu/test.jsonl
- 训练集:
- 印地语 (hi)
- 训练集:
data/hi/train.jsonl - 验证集:
data/hi/val.jsonl - 测试集:
data/hi/test.jsonl
- 训练集:
- 克罗地亚语 (hr)
- 训练集:
data/hr/train.jsonl - 验证集:
data/hr/val.jsonl - 测试集:
data/hr/test.jsonl
- 训练集:
- 匈牙利语 (hu)
- 训练集:
data/hu/train.jsonl - 验证集:
data/hu/val.jsonl - 测试集:
data/hu/test.jsonl
- 训练集:
- 亚美尼亚语 (hy)
- 训练集:
data/hy/train.jsonl - 验证集:
data/hy/val.jsonl - 测试集:
data/hy/test.jsonl
- 训练集:
- 印度尼西亚语 (id)
- 训练集:
data/id/train.jsonl - 验证集:
data/id/val.jsonl - 测试集:
data/id/test.jsonl
- 训练集:
- 冰岛语 (is)
- 训练集:
data/is/train.jsonl - 验证集:
data/is/val.jsonl - 测试集:
data/is/test.jsonl
- 训练集:
- 意大利语 (it)
- 训练集:
data/it/train.jsonl - 验证集:
data/it/val.jsonl - 测试集:
data/it/test.jsonl
- 训练集:
- 卡纳达语 (kn)
- 训练集:
data/kn/train.jsonl - 验证集:
data/kn/val.jsonl - 测试集:
data/kn/test.jsonl
- 训练集:
- 马拉雅拉姆语 (ml)
- 训练集:
data/ml/train.jsonl - 验证集:
data/ml/val.jsonl - 测试集:
data/ml/test.jsonl
- 训练集:
- 马拉地语 (mr)
- 训练集:
data/mr/train.jsonl - 验证集:
data/mr/val.jsonl - 测试集:
data/mr/test.jsonl
- 训练集:
- 挪威语 (nb)
- 训练集:
data/nb/train.jsonl - 验证集:
data/nb/val.jsonl - 测试集:
data/nb/test.jsonl
- 训练集:
- 尼泊尔语 (ne)
- 训练集:
data/ne/train.jsonl - 验证集:
data/ne/val.jsonl - 测试集:
data/ne/test.jsonl
- 训练集:
- 荷兰语 (nl)
- 训练集:
data/nl/train.jsonl - 验证集:
data/nl/val.jsonl - 测试集:
data/nl/test.jsonl
- 训练集:
- 葡萄牙语 (pt)
- 训练集:
data/pt/train.jsonl - 验证集:
data/pt/val.jsonl - 测试集:
data/pt/test.jsonl
- 训练集:
- 罗马尼亚语 (ro)
- 训练集:
data/ro/train.jsonl - 验证集:
data/ro/val.jsonl - 测试集:
data/ro/test.jsonl
- 训练集:
- 俄语 (ru)
- 训练集:
data/ru/train.jsonl - 验证集:
data/ru/val.jsonl - 测试集:
data/ru/test.jsonl
- 训练集:
- 斯洛伐克语 (sk)
- 训练集:
data/sk/train.jsonl - 验证集:
data/sk/val.jsonl - 测试集:
data/sk/test.jsonl
- 训练集:
- 塞尔维亚语 (sr)
- 训练集:
data/sr/train.jsonl - 验证集:
data/sr/val.jsonl - 测试集:
data/sr/test.jsonl
- 训练集:
- 瑞典语 (sv)
- 训练集:
data/sv/train.jsonl - 验证集:
data/sv/val.jsonl - 测试集:
data/sv/test.jsonl
- 训练集:
- 泰米尔语 (ta)
- 训练集:
data/ta/train.jsonl - 验证集:
data/ta/val.jsonl - 测试集:
data/ta/test.jsonl
- 训练集:
- 泰卢固语 (te)
- 训练集:
data/te/train.jsonl - 验证集:
data/te/val.jsonl - 测试集:
data/te/test.jsonl
- 训练集:
- 乌克兰语 (uk)
- 训练集:
data/uk/train.jsonl - 验证集:
data/uk/val.jsonl - 测试集:
data/uk/test.jsonl
- 训练集:
- 越南语 (vi)
- 训练集:
data/vi/train.jsonl - 验证集:
data/vi/val.jsonl - 测试集:
data/vi/test.jsonl
- 训练集:
- 中文 (zh)
- 训练集:
data/zh/train.jsonl - 验证集:
data/zh/val.jsonl - 测试集:
data/zh/test.jsonl
- 训练集:
许可
该数据集的许可为 cc-by-nc-4.0。
任务类别
- 问答
任务ID
- 多项选择问答
数据集大小
- 10K<n<100K
语言
- 阿拉伯语 (ar)
- 孟加拉语 (bn)
- 加泰罗尼亚语 (ca)
- 丹麦语 (da)
- 德语 (de)
- 英语 (en)
- 西班牙语 (es)
- 巴斯克语 (eu)
- 法语 (fr)
- 古吉拉特语 (gu)
- 印地语 (hi)
- 克罗地亚语 (hr)
- 匈牙利语 (hu)
- 亚美尼亚语 (hy)
- 印度尼西亚语 (id)
- 冰岛语 (is)
- 意大利语 (it)
- 卡纳达语 (kn)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 挪威语 (nb)
- 尼泊尔语 (ne)
- 荷兰语 (nl)
- 葡萄牙语 (pt)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 斯洛伐克语 (sk)
- 塞尔维亚语 (sr)
- 瑞典语 (sv)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 乌克兰语 (uk)
- 越南语 (vi)
- 中文 (zh)



