five

masakhane/afrimmlu-translate-test

收藏
Hugging Face2024-05-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afrimmlu-translate-test
下载链接
链接失效反馈
官方服务:
资源简介:
AFRIMMLU-TT是一个评估数据集,包含将AFRIMMLU数据集从16种非洲语言和1种高资源语言翻译成英语的内容。该数据集适用于文本分类任务,特别是自然语言推理。它涵盖了17种语言的测试集,每种语言的测试分割包含500个实例。数据实例包括问题、选项、答案和主题,均采用一致的格式。

AFRIMMLU-TT是一个评估数据集,包含将AFRIMMLU数据集从16种非洲语言和1种高资源语言翻译成英语的内容。该数据集适用于文本分类任务,特别是自然语言推理。它涵盖了17种语言的测试集,每种语言的测试分割包含500个实例。数据实例包括问题、选项、答案和主题,均采用一致的格式。
提供机构:
masakhane
原始信息汇总

数据集卡片 afrimmlu-translate-test

数据集描述

数据集摘要

AFRIMMLU-TT 是一个评估数据集,包含从 16 种非洲语言和 1 种高资源语言翻译成英语的 AFRIMMLU 数据集。它包括所有 17 种语言的测试集。

语言

数据集包含 17 种语言:amh, ibo, fra, sna, lin, wol, ewe, lug, xho, kin, twi, zul, orm, yor, hau, sot, swa。

数据集结构

数据实例

数据实例示例如下:

python from datasets import load_dataset data = load_dataset(masakhane/afrimmlu, amh)

请指定语言代码

数据点示例如下:

{ question: About what percentage of the global population was literate in 1950?, choices: [36%, 56%, 76%, 96%], answer: B, subject: global_facts }

数据字段

  • question: 多语言字符串特征
  • choices: 包含 4 个字符串特征的列表
  • answer: 分类标签特征
  • subject: 字符串特征

数据分割

所有语言都有 test 分割,对应于原始 afrimmlu 数据集的 test 分割。

分割大小如下:

语言 测试集大小
Amharic 500
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作