masakhane/afrimmlu
收藏Hugging Face2025-04-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afrimmlu
下载链接
链接失效反馈官方服务:
资源简介:
AFRIMMLU是一个评估数据集,包含将MMLU数据集的一部分翻译成15种非洲语言的版本。它包括所有17种语言的测试集,并保留了原始MMLU数据集中的英语和法语子集。数据集的结构包括问题、选项、答案和主题字段,并且每种语言都有验证集、开发集和测试集的分割。
AFRIMMLU是一个评估数据集,包含将MMLU数据集的一部分翻译成15种非洲语言的版本。它包括所有17种语言的测试集,并保留了原始MMLU数据集中的英语和法语子集。数据集的结构包括问题、选项、答案和主题字段,并且每种语言都有验证集、开发集和测试集的分割。
提供机构:
masakhane
原始信息汇总
数据集卡片 afrimmlu
数据集描述
数据集摘要
AFRIMMLU 是一个评估数据集,包含 MMLU 数据集的一个子集翻译成 15 种非洲语言。它包括所有 17 种语言的测试集,保留了原始 MMLU 数据集的英语和法语子集。
语言
数据集包含 17 种语言:
- amh, eng, ewe, fra, hau, ibo, kin, lin, lug, orm, sna, sot, swa, twi, wol, xho, yor, zul
数据集结构
数据实例
英语数据实例示例: python from datasets import load_dataset data = load_dataset(masakhane/afrimmlu, eng)
请指定语言代码
数据点示例如下:
{ question: About what percentage of the global population was literate in 1950?, choices: [36%, 56%, 76%, 96%], answer: B, subject: global_facts }
数据字段
question: 多语言字符串特征choices: 包含 4 个字符串特征的列表answer: 分类标签特征subject: 字符串特征
数据分割
所有语言都有三个分割:val、dev 和 test,这是原始 MMLU 数据集的 val、dev 和 test 分割的子集。
分割大小如下:
| Language | validation | dev | test |
|---|---|---|---|
| English | 83 | 25 | 500 |



