Global-MMLU-emb
收藏数据集描述
数据集概述
该数据集是GlobalMMLU的扩展版本,包含了查询嵌入(query embeddings)。该数据集可以与Multilingual Embeddings for Wikipedia in 300+ Languages联合使用,用于多语言段落检索。嵌入向量是通过Cohere Embed v3计算的。
数据集配置
数据集包含多个语言配置,每个配置对应一个测试集文件(test split),具体如下:
- am: 测试集文件为
am.jsonl - ar: 测试集文件为
ar.jsonl - bn: 测试集文件为
bn.jsonl - cs: 测试集文件为
cs.jsonl - de: 测试集文件为
de.jsonl - el: 测试集文件为
el.jsonl - en: 测试集文件为
en.jsonl - es: 测试集文件为
es.jsonl - fa: 测试集文件为
fa.jsonl - fil: 测试集文件为
fil.jsonl - fr: 测试集文件为
fr.jsonl - ha: 测试集文件为
ha.jsonl - he: 测试集文件为
he.jsonl - hi: 测试集文件为
hi.jsonl - id: 测试集文件为
id.jsonl - ig: 测试集文件为
ig.jsonl - it: 测试集文件为
it.jsonl - ja: 测试集文件为
ja.jsonl - ko: 测试集文件为
ko.jsonl - ky: 测试集文件为
ky.jsonl - lt: 测试集文件为
lt.jsonl - mg: 测试集文件为
mg.jsonl - ms: 测试集文件为
ms.jsonl - ne: 测试集文件为
ne.jsonl - nl: 测试集文件为
nl.jsonl - ny: 测试集文件为
ny.jsonl - pl: 测试集文件为
pl.jsonl - pt: 测试集文件为
pt.jsonl - ro: 测试集文件为
ro.jsonl - ru: 测试集文件为
ru.jsonl - si: 测试集文件为
si.jsonl - sn: 测试集文件为
sn.jsonl - so: 测试集文件为
so.jsonl - sr: 测试集文件为
sr.jsonl - sv: 测试集文件为
sv.jsonl - sw: 测试集文件为
sw.jsonl - te: 测试集文件为
te.jsonl - tr: 测试集文件为
tr.jsonl - uk: 测试集文件为
uk.jsonl - vi: 测试集文件为
vi.jsonl - yo: 测试集文件为
yo.jsonl - zh: 测试集文件为
zh.jsonl
引用
如果使用该数据集,请引用如下: bibtex @misc{singh2024globalmmluunderstandingaddressing, title={Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation}, author={Shivalika Singh and Angelika Romanou and Clémentine Fourrier and David I. Adelani and Jian Gang Ngui and Daniel Vila-Suero and Peerat Limkonchotiwat and Kelly Marchisio and Wei Qi Leong and Yosephine Susanto and Raymond Ng and Shayne Longpre and Wei-Yin Ko and Madeline Smith and Antoine Bosselut and Alice Oh and Andre F. T. Martins and Leshem Choshen and Daphne Ippolito and Enzo Ferrante and Marzieh Fadaee and Beyza Ermis and Sara Hooker}, year={2024}, eprint={2412.03304}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.03304}, }




