masakhane/afrimmlu-translate-test
收藏Hugging Face2024-05-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afrimmlu-translate-test
下载链接
链接失效反馈官方服务:
资源简介:
AFRIMMLU-TT是一个评估数据集,包含将AFRIMMLU数据集从16种非洲语言和1种高资源语言翻译成英语的内容。该数据集适用于文本分类任务,特别是自然语言推理。它涵盖了17种语言的测试集,每种语言的测试分割包含500个实例。数据实例包括问题、选项、答案和主题,均采用一致的格式。
AFRIMMLU-TT是一个评估数据集,包含将AFRIMMLU数据集从16种非洲语言和1种高资源语言翻译成英语的内容。该数据集适用于文本分类任务,特别是自然语言推理。它涵盖了17种语言的测试集,每种语言的测试分割包含500个实例。数据实例包括问题、选项、答案和主题,均采用一致的格式。
提供机构:
masakhane
原始信息汇总
数据集卡片 afrimmlu-translate-test
数据集描述
数据集摘要
AFRIMMLU-TT 是一个评估数据集,包含从 16 种非洲语言和 1 种高资源语言翻译成英语的 AFRIMMLU 数据集。它包括所有 17 种语言的测试集。
语言
数据集包含 17 种语言:amh, ibo, fra, sna, lin, wol, ewe, lug, xho, kin, twi, zul, orm, yor, hau, sot, swa。
数据集结构
数据实例
数据实例示例如下:
python from datasets import load_dataset data = load_dataset(masakhane/afrimmlu, amh)
请指定语言代码
数据点示例如下:
{ question: About what percentage of the global population was literate in 1950?, choices: [36%, 56%, 76%, 96%], answer: B, subject: global_facts }
数据字段
question: 多语言字符串特征choices: 包含 4 个字符串特征的列表answer: 分类标签特征subject: 字符串特征
数据分割
所有语言都有 test 分割,对应于原始 afrimmlu 数据集的 test 分割。
分割大小如下:
| 语言 | 测试集大小 |
|---|---|
| Amharic | 500 |



