five

masakhane/afrimmlu

收藏
Hugging Face2025-04-15 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afrimmlu
下载链接
链接失效反馈
官方服务:
资源简介:
AFRIMMLU是一个评估数据集,包含将MMLU数据集的一部分翻译成15种非洲语言的版本。它包括所有17种语言的测试集,并保留了原始MMLU数据集中的英语和法语子集。数据集的结构包括问题、选项、答案和主题字段,并且每种语言都有验证集、开发集和测试集的分割。

AFRIMMLU是一个评估数据集,包含将MMLU数据集的一部分翻译成15种非洲语言的版本。它包括所有17种语言的测试集,并保留了原始MMLU数据集中的英语和法语子集。数据集的结构包括问题、选项、答案和主题字段,并且每种语言都有验证集、开发集和测试集的分割。
提供机构:
masakhane
原始信息汇总

数据集卡片 afrimmlu

数据集描述

数据集摘要

AFRIMMLU 是一个评估数据集,包含 MMLU 数据集的一个子集翻译成 15 种非洲语言。它包括所有 17 种语言的测试集,保留了原始 MMLU 数据集的英语和法语子集。

语言

数据集包含 17 种语言:

  • amh, eng, ewe, fra, hau, ibo, kin, lin, lug, orm, sna, sot, swa, twi, wol, xho, yor, zul

数据集结构

数据实例

英语数据实例示例: python from datasets import load_dataset data = load_dataset(masakhane/afrimmlu, eng)

请指定语言代码

数据点示例如下:

{ question: About what percentage of the global population was literate in 1950?, choices: [36%, 56%, 76%, 96%], answer: B, subject: global_facts }

数据字段

  • question: 多语言字符串特征
  • choices: 包含 4 个字符串特征的列表
  • answer: 分类标签特征
  • subject: 字符串特征

数据分割

所有语言都有三个分割:valdevtest,这是原始 MMLU 数据集的 valdevtest 分割的子集。

分割大小如下:

Language validation dev test
English 83 25 500
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作